Dr. Serafim Batzoglou, Director de Datos en Seer – Serie de Entrevistas

Dr. Serafim Batzoglou, Director de Datos en Seer - Entrevista

Serafim Batzoglou es el Director de Datos de Seer. Antes de unirse a Seer, Serafim se desempeñó como Director de Datos de Insitro, liderando el aprendizaje automático y la ciencia de datos en su enfoque para el descubrimiento de medicamentos. Antes de Insitro, se desempeñó como VP de Biología Aplicada y Computacional en Illumina, liderando la investigación y el desarrollo de tecnología de IA y ensayos moleculares para hacer que los datos genómicos sean más interpretables en salud humana.

¿Qué te atrajo inicialmente al campo de la genómica?

Me interesé en el campo de la biología computacional al comienzo de mi doctorado en ciencias de la computación en el MIT, cuando tomé una clase sobre el tema impartida por Bonnie Berger, quien se convirtió en mi asesora de doctorado, y David Gifford. El proyecto del genoma humano estaba tomando impulso durante mi doctorado. Eric Lander, quien encabezaba el Centro de Genoma en el MIT, se convirtió en mi coasesor de doctorado y me involucró en el proyecto. Motivado por el proyecto del genoma humano, trabajé en el ensamblaje del genoma completo y la genómica comparativa del ADN humano y de ratón.

Luego me trasladé a la Universidad de Stanford como profesor en el departamento de Ciencias de la Computación, donde pasé 15 años y tuve el privilegio de asesorar a unos 30 talentosos estudiantes de doctorado y a muchos investigadores postdoctorales y estudiantes universitarios. El enfoque de mi equipo ha sido la aplicación de algoritmos, aprendizaje automático e herramientas de software para el análisis de datos genómicos y biomoleculares a gran escala. Dejé Stanford en 2016 para liderar un equipo de investigación y desarrollo en Illumina. Desde entonces, he disfrutado liderando equipos de I+D en la industria. Encuentro que el trabajo en equipo, el aspecto empresarial y un impacto más directo en la sociedad son características de la industria en comparación con la academia. He trabajado en empresas innovadoras a lo largo de mi carrera: DNAnexus, que cofundé en 2009, Illumina, Insitro y ahora Seer. La computación y el aprendizaje automático son esenciales en la cadena tecnológica de la biotecnología, desde el desarrollo de tecnología hasta la adquisición de datos, la interpretación de datos biológicos y la traducción a la salud humana.

En los últimos 20 años, secuenciar el genoma humano se ha vuelto considerablemente más barato y rápido. Esto ha llevado a un crecimiento dramático en el mercado de secuenciación del genoma y una mayor adopción en la industria de las ciencias de la vida. Ahora estamos al borde de tener datos genómicos, multi-ómicos y fenotípicos de tamaño suficiente para revolucionar significativamente la atención médica, incluyendo la prevención, el diagnóstico, el tratamiento y el descubrimiento de medicamentos. Cada vez podemos descubrir más los fundamentos moleculares de las enfermedades para los individuos a través del análisis computacional de los datos genómicos, y los pacientes tienen la oportunidad de recibir tratamientos personalizados y dirigidos, especialmente en áreas como el cáncer y las enfermedades genéticas raras. Más allá del uso obvio en medicina, el aprendizaje automático junto con la información genómica nos permite obtener conocimientos en otras áreas de nuestras vidas, como nuestra genealogía y nutrición. En los próximos años, se adoptará una atención médica personalizada basada en datos, primero para grupos selectos de personas, como pacientes con enfermedades raras, y cada vez más para el público en general.

Antes de tu puesto actual, fuiste Director de Datos en Insitro, liderando el aprendizaje automático y la ciencia de datos en su enfoque para el descubrimiento de medicamentos. ¿Cuáles fueron algunos de los puntos clave que aprendiste durante este período sobre cómo el aprendizaje automático puede acelerar el descubrimiento de medicamentos?

El paradigma convencional de descubrimiento y desarrollo de medicamentos “de prueba y error” está plagado de ineficiencias y plazos extremadamente largos. Para que un medicamento llegue al mercado, puede llevar más de mil millones de dólares y más de una década. Al incorporar el aprendizaje automático en estos esfuerzos, podemos reducir drásticamente los costos y los plazos en varios pasos del proceso. Un paso es la identificación del objetivo, donde se pueden identificar un gen o conjunto de genes que modulan un fenotipo de enfermedad o revierten un estado celular de enfermedad a un estado más saludable a través de perturbaciones genéticas y químicas a gran escala, y lecturas fenotípicas como imágenes y genómica funcional. Otro paso es la identificación y optimización de compuestos, donde una molécula pequeña u otra modalidad puede ser diseñada por predicciones in silico impulsadas por el aprendizaje automático, así como por pruebas in vitro, y además se pueden optimizar propiedades deseadas de un medicamento, como la solubilidad, permeabilidad, especificidad y no toxicidad. El aspecto más difícil y también más importante es quizás la traducción a los seres humanos. Aquí, la elección del modelo adecuado, como líneas derivadas de células madre pluripotentes inducidas versus líneas de células de pacientes primarios y muestras de tejido versus modelos animales, para la enfermedad correcta plantea un conjunto increíblemente importante de compensaciones que en última instancia reflejan la capacidad de los datos resultantes más el aprendizaje automático para traducirse a los pacientes.

Seer Bio está siendo pionero en nuevas formas de descifrar los secretos del proteoma para mejorar la salud humana, para los lectores que no están familiarizados con este término, ¿qué es el proteoma?

El proteoma es el conjunto cambiante de proteínas producidas o modificadas por un organismo a lo largo del tiempo y en respuesta al entorno, la nutrición y el estado de salud. La proteómica es el estudio del proteoma dentro de un tipo de célula o muestra de tejido determinada. El genoma de un humano u otro organismo es estático: con la importante excepción de las mutaciones somáticas, el genoma al nacer es el mismo durante toda la vida, copiado exactamente en cada célula del cuerpo. El proteoma es dinámico y cambia en períodos de tiempo de años, días e incluso minutos. Como tal, los proteomas están mucho más cerca del fenotipo y, en última instancia, del estado de salud que los genomas, y por lo tanto son más informativos para monitorear la salud y comprender las enfermedades.

En Seer, hemos desarrollado una nueva forma de acceder al proteoma que proporciona una comprensión más profunda de las proteínas y proteoformas en muestras complejas como el plasma, que es una muestra altamente accesible que desafortunadamente hasta la fecha ha planteado un gran desafío para la proteómica convencional mediante espectrometría de masas.

¿Qué es la plataforma Proteograph™ de Seer y cómo ofrece una nueva visión del proteoma?

La plataforma Proteograph de Seer aprovecha una biblioteca de nanopartículas patentadas, impulsada por un flujo de trabajo simple, rápido y automatizado, que permite una interrogación profunda y escalable del proteoma.

La plataforma Proteograph brilla al interrogar el plasma y otras muestras complejas que presentan un amplio rango dinámico, con diferencias de varias órdenes de magnitud en la abundancia de diversas proteínas en la muestra, donde los métodos convencionales de espectrometría de masas no pueden detectar la parte de baja abundancia del proteoma. Las nanopartículas de Seer están diseñadas con propiedades fisicoquímicas ajustables que capturan proteínas en todo el rango dinámico de manera imparcial. En muestras típicas de plasma, nuestra tecnología permite detectar de 5 a 8 veces más proteínas que cuando se procesa el plasma sin usar Proteograph. Como resultado, desde la preparación de la muestra hasta la instrumentación y el análisis de datos, nuestra Suite de Productos Proteograph ayuda a los científicos a encontrar firmas de enfermedades en el proteoma que de otra manera serían indetectables. Nos gusta decir que en Seer, estamos abriendo una nueva puerta al proteoma.

Además, estamos permitiendo a los científicos realizar fácilmente estudios proteogenómicos a gran escala. La proteogenómica combina datos genómicos con datos proteómicos para identificar y cuantificar variantes de proteínas, vincular variantes genómicas con niveles de abundancia de proteínas y, en última instancia, vincular el genoma y el proteoma con fenotipo y enfermedad, y comenzar a desentrañar las vías genéticas causales y descendentes asociadas con la enfermedad.

¿Puede hablar sobre algunas de las tecnologías de aprendizaje automático que se utilizan actualmente en Seer Bio?

Seer está aprovechando el aprendizaje automático en todas las etapas, desde el desarrollo de tecnología hasta el análisis de datos subsiguientes. Estas etapas incluyen: (1) diseño de nuestras nanopartículas patentadas, donde el aprendizaje automático nos ayuda a determinar qué propiedades fisicoquímicas y combinaciones de nanopartículas funcionarán con líneas de productos y ensayos específicos; (2) detección y cuantificación de péptidos, proteínas, variantes y proteoformas a partir de los datos de salida producidos por los instrumentos de espectrometría de masas; (3) análisis proteómicos y proteogenómicos posteriores en cohortes de poblaciones a gran escala.

El año pasado, publicamos un artículo en Advanced Materials que combina métodos de proteómica, nanoingeniería y aprendizaje automático para mejorar nuestra comprensión de los mecanismos de formación de la corona de proteínas. Este artículo reveló interacciones nano-bio y está orientando a Seer en la creación de futuras nanopartículas y productos mejorados.

Además del desarrollo de nanopartículas, hemos estado desarrollando algoritmos novedosos para identificar péptidos variantes y modificaciones post-traduccionales (PTMs). Recientemente, hemos desarrollado un método para la detección de loci de rasgos cuantificados de proteínas (pQTLs) que es robusto frente a variantes de proteínas, que es un factor de confusión conocido para la proteómica basada en afinidad. Estamos ampliando este trabajo para identificar directamente estos péptidos a partir de los espectros sin aumentar el tamaño de las bibliotecas espectrales, utilizando métodos de secuenciación de novo basados en aprendizaje profundo.

Nuestro equipo también está desarrollando métodos para permitir que los científicos sin una profunda experiencia en aprendizaje automático ajusten y utilicen de manera óptima los modelos de aprendizaje automático en su trabajo de descubrimiento. Esto se logra mediante un marco de aprendizaje automático de Seer basado en la herramienta AutoML, que permite una optimización eficiente de los hiperparámetros mediante la optimización bayesiana.

Finalmente, estamos desarrollando métodos para reducir el efecto del lote y aumentar la precisión cuantitativa de la lectura de espectrometría de masas mediante la modelización de los valores cuantitativos medidos para maximizar métricas esperadas como la correlación de los valores de intensidad en los péptidos dentro de un grupo de proteínas.

Las alucinaciones son un problema común en los LLM, ¿cuáles son algunas de las soluciones para prevenir o mitigar esto?

Los LLM son métodos generativos que se les proporciona un corpus grande y se entrenan para generar texto similar. Capturan las propiedades estadísticas subyacentes del texto en el que se les ha entrenado, desde propiedades locales simples como la frecuencia con la que ciertas combinaciones de palabras (o tokens) se encuentran juntas, hasta propiedades de nivel superior que emulan la comprensión del contexto y el significado.

Sin embargo, los LLM no se entrenan principalmente para ser correctos. El aprendizaje por refuerzo con retroalimentación humana (RLHF) y otras técnicas ayudan a entrenarlos para propiedades deseables, incluida la corrección, pero no son completamente exitosas. Dado un estímulo, los LLM generarán texto que se asemeje más a las propiedades estadísticas de los datos de entrenamiento. A menudo, este texto también es correcto. Por ejemplo, si se le pregunta “¿cuándo nació Alejandro Magno?”, la respuesta correcta es 356 a.C. (o BCE), y es probable que un LLM dé esa respuesta porque dentro de los datos de entrenamiento el nacimiento de Alejandro Magno aparece con frecuencia con este valor. Sin embargo, cuando se le pregunta “¿cuándo nació la Emperatriz Reginella?”, un personaje ficticio que no está presente en el corpus de entrenamiento, es probable que el LLM alucine y cree una historia sobre su nacimiento. De manera similar, cuando se le hace una pregunta para la cual el LLM puede no obtener una respuesta correcta (ya sea porque la respuesta correcta no existe o por otros fines estadísticos), es probable que alucine y responda como si lo supiera. Esto crea alucinaciones que son un problema evidente para aplicaciones serias, como “¿cómo se puede tratar tal y tal cáncer?”.

No existen soluciones perfectas aún para las alucinaciones. Son endémicas en el diseño del LLM. Una solución parcial es una correcta guía, como pedirle al LLM que “piense cuidadosamente, paso a paso”, y así sucesivamente. Esto aumenta la probabilidad de que el LLM no invente historias. Un enfoque más sofisticado que se está desarrollando es el uso de grafos de conocimiento. Los grafos de conocimiento proporcionan datos estructurados: las entidades en un grafo de conocimiento están conectadas a otras entidades de una manera lógica y predefinida. Construir un grafo de conocimiento para un dominio dado es, por supuesto, una tarea desafiante pero factible con una combinación de métodos automatizados y estadísticos y curación. Con un grafo de conocimiento incorporado, los LLM pueden verificar las afirmaciones que generan con el conjunto estructurado de hechos conocidos y pueden estar limitados para no generar una afirmación que contradiga o no esté respaldada por el grafo de conocimiento.

Debido al problema fundamental de las alucinaciones y, posiblemente, debido a su falta de suficiente razonamiento y capacidad de juicio, los LLM son poderosos hoy en día para recuperar, conectar y destilar información, pero no pueden reemplazar a expertos humanos en aplicaciones serias como el diagnóstico médico o el asesoramiento legal. Sin embargo, pueden mejorar enormemente la eficiencia y capacidad de los expertos humanos en estos dominios.

¿Puede compartir su visión para un futuro en el que la biología esté dirigida por datos en lugar de hipótesis?

El enfoque tradicional impulsado por hipótesis, que implica que los investigadores encuentren patrones, desarrollen hipótesis, realicen experimentos o estudios para probarlos y luego refinan teorías basadas en los datos, está siendo reemplazado por un nuevo paradigma basado en la modelización impulsada por datos.

En este paradigma emergente, los investigadores comienzan con la generación de datos a gran escala sin hipótesis. Luego, entrenan un modelo de aprendizaje automático como un LLM con el objetivo de una reconstrucción precisa de datos ocultos, un rendimiento sólido de regresión o clasificación en una serie de tareas secundarias. Una vez que el modelo de aprendizaje automático puede predecir con precisión los datos y logra una fidelidad comparable a la similitud entre réplicas experimentales, los investigadores pueden interrogar el modelo para extraer información sobre el sistema biológico y discernir los principios biológicos subyacentes.

Los LLM están demostrando ser especialmente buenos en la modelización de datos biomoleculares y están orientados a impulsar un cambio de descubrimiento biológico impulsado por hipótesis a impulsado por datos. Este cambio se volverá cada vez más notable en los próximos 10 años y permitirá la modelización precisa de sistemas biomoleculares a una granularidad que va mucho más allá de la capacidad humana.

¿Cuál es el impacto potencial para el diagnóstico de enfermedades y el descubrimiento de medicamentos?

Creo que los LLM y la inteligencia artificial generativa llevarán a cambios significativos en la industria de las ciencias de la vida. Un área que se beneficiará enormemente de los LLM es el diagnóstico clínico, específicamente para enfermedades raras y difíciles de diagnosticar y subtipos de cáncer. Existen cantidades enormes de información completa de pacientes a las que podemos acceder: perfiles genómicos, respuestas al tratamiento, historias médicas y antecedentes familiares, para lograr un diagnóstico preciso y oportuno. Si podemos encontrar una forma de compilar todos estos datos de manera que sean fácilmente accesibles y no estén aislados por organizaciones de salud individuales, podemos mejorar drásticamente la precisión del diagnóstico. Esto no implica que los modelos de aprendizaje automático, incluidos los LLM, podrán operar de forma autónoma en el diagnóstico. Debido a sus limitaciones técnicas, en el futuro previsible no serán autónomos, sino que complementarán a los expertos humanos. Serán herramientas poderosas para ayudar al médico a proporcionar evaluaciones y diagnósticos sumamente informados en una fracción del tiempo necesario hasta la fecha, y para documentar y comunicar adecuadamente sus diagnósticos al paciente y a toda la red de proveedores de salud conectados a través del sistema de aprendizaje automático.

La industria ya está aprovechando el aprendizaje automático para el descubrimiento y desarrollo de medicamentos, destacando su capacidad para reducir costos y tiempos en comparación con el paradigma tradicional. Los LLMs se suman aún más al conjunto de herramientas disponibles y ofrecen excelentes marcos para modelar datos biomoleculares a gran escala, incluidos genomas, proteomas, datos genómicos y epigenómicos funcionales, datos de células individuales y más. En un futuro previsible, los LLMs fundamentales sin duda se conectarán en todas estas modalidades de datos y en grandes cohortes de personas cuya información genómica, proteómica y de salud se recopila. Estos LLMs ayudarán a generar objetivos de medicamentos prometedores, identificar áreas probables de actividad de proteínas asociadas con la función biológica y enfermedad, o sugerir vías y funciones celulares más complejas que se pueden modular de manera específica con pequeñas moléculas u otras modalidades de medicamentos. También podemos aprovechar los LLMs para identificar respondedores y no respondedores a medicamentos según la susceptibilidad genética, o para reutilizar medicamentos en otras indicaciones de enfermedades. Muchas de las compañías existentes de descubrimiento de medicamentos basadas en inteligencia artificial ya están comenzando a pensar y desarrollar en esta dirección, y debemos esperar ver la formación de compañías adicionales, así como esfuerzos públicos dirigidos a la implementación de LLMs en la salud humana y el descubrimiento de medicamentos.

Gracias por la detallada entrevista, los lectores que deseen obtener más información deberían visitar Seer.