Prediciendo la retrosíntesis en un solo paso al incorporar los conocimientos de los químicos con modelos de IA
Prediciendo la retrosíntesis con IA y conocimientos químicos en un solo paso.
En la síntesis orgánica, las moléculas se construyen a través de procesos orgánicos, lo que la convierte en una rama importante de la química sintética. Uno de los trabajos más importantes en la síntesis orgánica asistida por computadora es el análisis de retrosíntesis1, que propone posibles precursores de reacción dados un resultado deseado. Encontrar las mejores rutas de reacción posibles a partir de un gran conjunto de posibilidades requiere predicciones precisas de los reactivos. Los investigadores de Microsoft se refieren a los sustratos que proporcionan átomos para una molécula de producto como “reactivos” en el contexto de este artículo. No se contaron como reactivos en el papel los disolventes o catalizadores que facilitan una reacción pero que no contribuyen con átomos al producto final. Recientemente, los métodos basados en el aprendizaje automático han mostrado un considerable potencial para abordar este problema. La generación autoregresiva de secuencias de salida token por token es una característica común de muchos de estos enfoques, y muchos de ellos utilizan marcos codificador-decodificador en los que el componente codificador codifica la secuencia o grafo molecular como vectores de alta dimensión y el componente decodificador decodifica la salida del codificador.
El proceso de análisis de retrosíntesis se conceptualizó como una traducción de un lenguaje a otro, en este caso, del resultado a los reactivos. Mediante el uso de una probabilidad similar a la de Bayes, se utilizó un Transformador Molecular para predecir rutas de retrosíntesis utilizando metodologías exploratorias. El uso de redes neuronales profundas bien desarrolladas en el procesamiento del lenguaje natural es posible al reformular el análisis de retrosíntesis como un problema de traducción automática.
Se utiliza la generación autoregresiva de tokens para construir cadenas de salida SMILES en la etapa de decodificación; de manera convencional, los tokens elementales en las cadenas SMILES suelen referirse a átomos o moléculas individuales. Esto no es inmediatamente intuitivo o explicable para los químicos involucrados en el diseño de síntesis o el análisis de retrosíntesis. Cuando se enfrentan a un desafío real de exploración de rutas, la mayoría de los químicos sintéticos confían en sus años de entrenamiento y experiencia para desarrollar una vía de reacción combinando su conocimiento de las vías de reacción existentes con una comprensión abstracta de los mecanismos subyacentes obtenidos a partir de principios básicos. Los seres humanos suelen realizar el análisis de retrosíntesis, que comienza con fragmentos moleculares o subestructuras químicamente similares o presentes en moléculas objetivo. Estos fragmentos o subestructuras son piezas de un rompecabezas que, si se ensamblan correctamente, podrían llevar al producto final a través de una serie de procesos químicos.
Los investigadores sugieren utilizar subestructuras típicamente presentes en la síntesis orgánica sin recurrir a sistemas expertos o bibliotecas de plantillas. Estas subestructuras se obtienen de vastos conjuntos de reacciones conocidas y capturan similitudes mínimas entre reactivos y productos. En este sentido, pueden plantear el análisis de retrosíntesis como un problema de aprendizaje de secuencia a secuencia a nivel de subestructura.
- Investigadores de Cornell y Tel Aviv presentan Doppelgangers Aprend...
- Detectores de contenido GPT y AI principales
- Google AI presenta un nuevo marco de simulación TensorFlow que perm...
Modelado de subestructuras extraídas
Los fragmentos moleculares o piezas de construcción más pequeñas químicamente comparables o presentes dentro de moléculas objetivo se llaman “subestructuras” en química orgánica. Estas subestructuras son cruciales para analizar la retrosíntesis porque ayudan a iluminar cómo se ensamblan las moléculas complejas.
Usando esta idea como inspiración, el marco tiene tres partes principales:
Si se proporciona una molécula de producto, este módulo encontrará otras reacciones que produzcan un producto similar. Utiliza un recuperador de memoria cruzado-lingüístico que puede ser entrenado para organizar correctamente los reactivos y productos en un espacio vectorial de alta dimensión.
Los investigadores utilizan huellas moleculares para aislar las subestructuras compartidas entre la molécula de producto y las mejores posibilidades cruzadas alineadas. Estas subestructuras proporcionan el mapeo de fragmento a fragmento entre sustratos y productos a nivel de reacción.
Acoplamiento intersecuencia a nivel de subestructura. En el proceso de aprendizaje, los investigadores toman la serie inicial de tokens y la transforman en una secuencia de subestructuras. Las cadenas SMILES de subestructura están primero en la nueva secuencia de entrada, seguidas de las cadenas SMILES de fragmentos adicionales etiquetados con números virtuales. Las piezas numeradas virtualmente son las secuencias de salida. Los sitios de formación y enlace de enlaces se indican con sus números virtuales correspondientes.
En comparación con otros métodos que se han probado y evaluado, el enfoque tiene la misma o mayor precisión en el primer lugar prácticamente en todas partes. El rendimiento del modelo se mejora significativamente en el subconjunto de datos del que se recuperaron con éxito las subestructuras.
El 82% de los productos en el conjunto de datos de prueba del USPTO se extrajeron con éxito subestructuras utilizando el método, lo que demuestra su generalizabilidad.
Para reducir la longitud de las representaciones de cadena de las moléculas y el número de átomos que debían predecirse, solo era necesario producir piezas relacionadas con partículas etiquetadas virtualmente en las subestructuras.
En conclusión, los investigadores de Microsoft idearon un método para derivar subestructuras universalmente conservadas para su uso en predicciones de retrosíntesis. Sin ninguna ayuda de los seres humanos, pueden extraer las estructuras subyacentes. El método en su conjunto es muy similar a la forma en que los científicos humanos realizan el análisis de retrosíntesis. En comparación con los modelos previamente publicados, la implementación actual es una mejora. También demuestran que mejorar el procedimiento de extracción de subestructuras subyacentes puede ayudar al modelo a tener un mejor rendimiento en la predicción de retrosíntesis. El objetivo es despertar la curiosidad de los lectores sobre el emocionante campo multidisciplinario de la predicción de retrosíntesis y la investigación asociada.