Conoce a CLAMP una nueva herramienta de IA para la predicción de la actividad molecular que puede adaptarse a nuevos experimentos en el momento de la inferencia

Conoce a CLAMP, una nueva herramienta de IA para predecir la actividad molecular y adaptarse a nuevos experimentos al momento de la inferencia.

Durante décadas, las tareas que involucran predecir las propiedades químicas, macroscópicas o biológicas de una molécula basándose en su estructura química han sido un problema clave de investigación científica. Muchos algoritmos de aprendizaje automático se han utilizado para descubrir correlaciones entre la estructura química y las características de estas moléculas debido a los avances tecnológicos significativos de los últimos años. Además, el inicio del aprendizaje profundo marcó la introducción de modelos de predicción de actividad, que se utilizan para clasificar las moléculas restantes para su prueba biológica después de eliminar las moléculas con características indeseables. Estos modelos de predicción de actividad son las principales herramientas de trabajo de la industria de descubrimiento de medicamentos computacional, y se pueden comparar con modelos de lenguaje grandes en procesamiento de lenguaje natural y modelos de clasificación de imágenes en visión por computadora. Estos modelos de predicción de actividad basados en aprendizaje profundo utilizan una variedad de descripciones de estructura química de bajo nivel, incluyendo huellas químicas, descriptores, grafos moleculares, la representación en cadena SMILES o una combinación de estos.

Aunque estas arquitecturas han tenido un desempeño admirable, sus avances no han sido tan revolucionarios como los de la visión y el lenguaje. Normalmente, se utilizan pares de moléculas y etiquetas de actividad de experimentos biológicos, o “bioensayos”, para entrenar modelos de predicción de actividad. Como el proceso de anotar los datos de entrenamiento (también conocidos como bioactividades) es extremadamente lento y laborioso, los investigadores están buscando métodos que permitan entrenar eficientemente modelos de predicción de actividad con menos puntos de datos. Además, los algoritmos de predicción de actividad actuales aún no son capaces de utilizar información completa sobre las tareas de predicción de actividad, que en su mayoría se dan en forma de descripciones textuales del experimento biológico. Esto se debe en gran parte al hecho de que estos modelos necesitan datos de medición del bioensayo o la tarea de predicción de actividad en la que se entrenan o ajustan. Debido a esto, los modelos de predicción de actividad actuales no pueden realizar predicciones de actividad sin entrenamiento y tienen una precisión predictiva deficiente para escenarios de pocos datos.

Debido a sus informadas capacidades de predicción sin entrenamiento y con pocos datos, los investigadores han recurrido a varios modelos de lenguaje científico para tareas con pocos datos. Pero estos modelos carecen significativamente de calidad predictiva cuando se trata de la predicción de actividad. Trabajando en esta declaración del problema, un grupo de destacados investigadores del Departamento de Aprendizaje Automático de la Universidad Johannes Kepler de Linz, Austria, descubrieron que el uso de bases de datos químicas como datos de entrenamiento o preentrenamiento y la selección de un codificador de moléculas eficiente puede resultar en una mejor predicción de actividad. Para abordar esto, sugieren Contrastive Language-Assay-Molecule Pre-training (o CLAMP), una arquitectura novedosa para la predicción de actividad que puede condicionarse según la descripción textual de la tarea de predicción. Esta arquitectura modularizada consta de un codificador de moléculas y un codificador de lenguaje separados que se preentrenan contrastivamente en estas dos modalidades de datos. Los investigadores también proponen un objetivo de preentrenamiento contrastivo sobre la información contenida en bases de datos químicas como datos de entrenamiento. Estos datos contienen órdenes de magnitud más estructuras químicas que las contenidas en textos biomédicos.

Como se indicó anteriormente, CLAMP utiliza un codificador de texto entrenable para crear incrustaciones de bioensayo y un codificador de moléculas entrenable para crear incrustaciones de moléculas. Se supone que estas incrustaciones están normalizadas por capa. El método propuesto por los investigadores austriacos también incluye una función de puntuación, que proporciona valores altos cuando una molécula es activa en cierto bioensayo y valores bajos cuando no lo es. Además, la estrategia de aprendizaje contrastivo le da al modelo la capacidad de aprendizaje de transferencia sin entrenamiento, lo que produce predicciones perspicaces para bioensayos no vistos. Según varias evaluaciones experimentales realizadas por los investigadores, se descubrió que su metodología mejora significativamente el rendimiento predictivo en bancos de pruebas de aprendizaje con pocos datos y problemas sin entrenamiento en el descubrimiento de medicamentos y produce representaciones transferibles. Los investigadores creen que la arquitectura modular y el objetivo de preentrenamiento de su modelo fueron la principal razón detrás de su notable rendimiento.

Es importante recordar que aunque CLAMP tiene un desempeño admirable, todavía hay margen de mejora. Muchos elementos que afectan los resultados del bioensayo, como la dosis química, no se tienen en cuenta. Además, puede haber ciertos casos de predicciones incorrectas causadas por inconsistencias gramaticales y negaciones. No obstante, el método de aprendizaje contrastivo CLAMP exhibe el mejor rendimiento en tareas de predicción sin entrenamiento en el descubrimiento de medicamentos en varios conjuntos de datos grandes.