Nuevo modelo ofrece una forma de acelerar el descubrimiento de medicamentos.
New model speeds up drug discovery.
Al aplicar un modelo de lenguaje a las interacciones proteína-medicamento, los investigadores pueden realizar rápidamente una criba de grandes bibliotecas de compuestos medicamentosos potenciales.
Las enormes bibliotecas de compuestos medicamentosos pueden contener tratamientos potenciales para una variedad de enfermedades, como el cáncer o las enfermedades cardíacas. Idealmente, los científicos desearían experimentar probando cada uno de estos compuestos contra todos los posibles objetivos, pero hacer ese tipo de prueba consume demasiado tiempo.
En los últimos años, los investigadores han comenzado a utilizar métodos computacionales para examinar esas bibliotecas con la esperanza de acelerar el descubrimiento de medicamentos. Sin embargo, muchos de esos métodos también llevan mucho tiempo, ya que la mayoría de ellos calculan la estructura tridimensional de cada proteína objetivo a partir de su secuencia de aminoácidos, y luego utilizan esas estructuras para predecir con qué moléculas de medicamentos interactuará.
Investigadores del MIT y la Universidad de Tufts han diseñado ahora un enfoque computacional alternativo basado en un tipo de algoritmo de inteligencia artificial conocido como modelo de lenguaje amplio. Estos modelos, un ejemplo bien conocido es ChatGPT, pueden analizar enormes cantidades de texto y averiguar qué palabras (o, en este caso, aminoácidos) son las más propensas a aparecer juntas. El nuevo modelo, conocido como ConPLex, puede emparejar proteínas objetivo con posibles moléculas de medicamentos sin tener que realizar el paso de cálculo intensivo en computación de calcular las estructuras de las moléculas.
Utilizando este método, los investigadores pueden examinar más de 100 millones de compuestos en un solo día, mucho más que cualquier modelo existente.
“Este trabajo aborda la necesidad de una exploración eficiente y precisa in silico de posibles candidatos a fármacos, y la escalabilidad del modelo permite pantallas a gran escala para evaluar los efectos fuera del objetivo, la reutilización de fármacos y determinar el impacto de las mutaciones en la unión de fármacos”, dice Bonnie Berger, profesora Simons de Matemáticas, jefa del grupo de Computación y Biología en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, y una de las autoras principales del nuevo estudio.
Lenore Cowen, profesora de Ciencias de la Computación en la Universidad de Tufts, también es autora principal del artículo, que aparece esta semana en las Actas de la Academia Nacional de Ciencias. Rohit Singh, científico investigador de CSAIL, y Samuel Sledzieski, estudiante de posgrado en el MIT, son los autores principales del estudio, y Bryan Bryson, profesor asociado de Ingeniería Biológica en el MIT y miembro del Instituto Ragon del MGH, MIT, y Harvard, también es autor. Además del artículo, los investigadores han puesto su modelo a disposición en línea para que lo utilicen otros científicos.
Haciendo predicciones
En los últimos años, los científicos computacionales han hecho grandes avances en el desarrollo de modelos que pueden predecir las estructuras de proteínas basándose en sus secuencias de aminoácidos. Sin embargo, utilizar estos modelos para predecir cómo una gran biblioteca de posibles medicamentos podría interactuar con una proteína cancerosa, por ejemplo, ha resultado ser un desafío, principalmente porque calcular las estructuras tridimensionales de las proteínas requiere mucho tiempo y potencia de cálculo.
Un obstáculo adicional es que estos modelos no tienen un buen historial para eliminar compuestos conocidos como señuelos, que son muy similares a un fármaco exitoso pero no interactúan bien con el objetivo.
“Uno de los desafíos persistentes en el campo ha sido que estos métodos son frágiles, en el sentido de que si le diera al modelo un fármaco o una pequeña molécula que pareciera casi lo mismo, pero que fuera ligeramente diferente de alguna manera sutil, el modelo podría seguir prediciendo que interactuarán, aunque no debería”, dice Singh.
Los investigadores han diseñado modelos que pueden superar este tipo de fragilidad, pero generalmente se adaptan a una sola clase de moléculas de fármacos, y no son adecuados para pantallas a gran escala porque los cálculos llevan demasiado tiempo.
El equipo del MIT decidió adoptar un enfoque alternativo, basado en un modelo de proteína que desarrollaron por primera vez en 2019. Trabajando con una base de datos de más de 20,000 proteínas, el modelo de lenguaje codifica esta información en representaciones numéricas significativas de cada secuencia de aminoácidos que capturan las asociaciones entre la secuencia y la estructura.
“Con estos modelos de lenguaje, incluso las proteínas que tienen secuencias muy diferentes pero que potencialmente tienen estructuras o funciones similares pueden representarse de una manera similar en este espacio de lenguaje, y podemos aprovechar eso para hacer nuestras predicciones”, dice Sledzieski.
En su nuevo estudio, los investigadores aplicaron el modelo de proteína a la tarea de averiguar qué secuencias de proteínas interactuarán con moléculas de fármacos específicas, ambas tienen representaciones numéricas que se transforman en un espacio común compartido por una red neuronal. Entrenaron la red en interacciones conocidas entre proteínas y fármacos, lo que le permitió aprender a asociar características específicas de las proteínas con la capacidad de unión a los fármacos, sin tener que calcular la estructura 3D de ninguna de las moléculas.
“Con esta representación numérica de alta calidad, el modelo puede evitar completamente la representación atómica, y a partir de estos números predecir si este fármaco se unirá o no”, dice Singh. “La ventaja de esto es que evita la necesidad de pasar por una representación atómica, pero los números aún tienen toda la información que necesita.”
Otra ventaja de este enfoque es que tiene en cuenta la flexibilidad de las estructuras de proteínas, que pueden ser “ondulantes” y adoptar formas ligeramente diferentes al interactuar con una molécula de fármaco.
Alta afinidad
Para hacer que su modelo sea menos propenso a ser engañado por moléculas de fármaco falsas, los investigadores también incorporaron una etapa de entrenamiento basada en el concepto de aprendizaje contrastivo. Bajo este enfoque, los investigadores dan al modelo ejemplos de fármacos “reales” e impostores y le enseñan a distinguir entre ellos.
Luego, los investigadores probaron su modelo mediante el cribado de una biblioteca de alrededor de 4.700 moléculas de fármaco candidatas para evaluar su capacidad para unirse a un conjunto de 51 enzimas conocidas como quinasas de proteínas.
De los principales resultados, los investigadores eligieron 19 pares de fármacos-proteínas para probar experimentalmente. Los experimentos revelaron que de los 19 resultados, 12 tenían una fuerte afinidad de unión (en el rango de nanomoles), mientras que casi todos los demás pares posibles de fármacos-proteínas no tendrían afinidad. Cuatro de estos pares se unieron con una afinidad extremadamente alta, subnanomolar (tan fuerte que una concentración de fármaco minúscula, del orden de partes por billón, inhibirá la proteína).
Aunque los investigadores se centraron principalmente en el cribado de fármacos de molécula pequeña en este estudio, ahora están trabajando en la aplicación de este enfoque a otros tipos de fármacos, como los anticuerpos terapéuticos. Este tipo de modelado también podría resultar útil para realizar pruebas de toxicidad de posibles compuestos de fármacos, para asegurarse de que no tengan efectos secundarios no deseados antes de probarlos en modelos animales.
“Parte de la razón por la que el descubrimiento de fármacos es tan costoso es porque tiene altas tasas de fracaso. Si podemos reducir esas tasas de fracaso al decir de antemano que este fármaco no es probable que funcione, eso podría ir muy lejos en la reducción del costo del descubrimiento de fármacos”, dice Singh.
Este nuevo enfoque “representa un avance significativo en la predicción de la interacción fármaco-objetivo y abre oportunidades adicionales para futuras investigaciones para mejorar aún más sus capacidades”, dice Eytan Ruppin, jefe del Laboratorio de Ciencia de Datos del Cáncer en el Instituto Nacional del Cáncer, quien no participó en el estudio. “Por ejemplo, la incorporación de información estructural en el espacio latente o la exploración de métodos de generación molecular para generar señuelos podrían mejorar aún más las predicciones”.
La investigación fue financiada por los Institutos Nacionales de Salud, la Fundación Nacional de Ciencia y la Fundación Phillip y Susan Ragon.
- artificial intelligence
- Biological engineering
- Broad Institute
- Computer Science and Artificial Intelligence Laboratory (CSAIL)
- Computer science and technology
- Drug discovery
- Electrical engineering and computer science (EECS)
- Machine Learning
- Mathematics
- MIT Schwarzman College of Computing
- National Institutes of Health (NIH)
- National Science Foundation (NSF)
- Proteins
- Ragon Institute
- Research
- School of Engineering
- School of Science