Esta investigación de IA presenta a LISA Asistente de Segmentación Instruida por Lenguaje Amplio que hereda las capacidades de generación de lenguaje del Modelo de Lenguaje Amplio Multi-Modal (LLM)
Esta investigación de IA presenta a LISA, un asistente de segmentación instruida por Lenguaje Amplio, que hereda las capacidades del Modelo de Lenguaje Amplio Multi-Modal (LLM).
Imagina que quieres tomar café y le das instrucciones a un robot para que lo haga. Tu instrucción implica “Haz una taza de café”, pero no instrucciones paso a paso como “Ve a la cocina, encuentra la máquina de café y enciéndela”. Los sistemas existentes contienen modelos que dependen de las instrucciones humanas para identificar cualquier objeto objetivo. Carecen de la capacidad de razonamiento y comprensión activa de las intenciones del usuario. Para abordar esto, investigadores de Microsoft Research, la Universidad de Hong Kong y SmartMore proponen una nueva tarea llamada segmentación de razonamiento. Esta capacidad de razonamiento propio es crucial para desarrollar sistemas de percepción inteligente de próxima generación.
La segmentación de razonamiento implica diseñar la salida como una máscara de segmentación para un texto de consulta complejo e implícito. También crean un conjunto de datos de referencia que comprende más de mil pares de imágenes e instrucciones con razonamiento y conocimiento del mundo para su evaluación. Construyeron un asistente similar a Google Assistant y Siri llamado Asistente de Segmentación Instruida por Lenguaje (LISA). Hereda las capacidades de generación de lenguaje del modelo de lenguaje multimodal grande mientras procesa la capacidad de producir tareas de segmentación.
LISA puede manejar razonamiento complejo, conocimiento del mundo, respuestas explicativas y conversaciones múltiples. Los investigadores dicen que su modelo puede demostrar cero disparos robustos cuando se entrena con conjuntos de datos libres de razonamiento. Ajustar finamente su modelo con solo 239 pares de imágenes e instrucciones de segmentación de razonamiento resultó en una mejora del rendimiento.
La tarea de segmentación de razonamiento difiere de la segmentación de referencia anterior, que requiere que el modelo posea habilidades de razonamiento o acceso al conocimiento del mundo. Solo comprendiendo completamente la consulta, el modelo puede realizar bien la tarea. Los investigadores dicen que su método desbloquea una nueva segmentación de razonamiento, que resulta efectiva en comparación con el razonamiento complejo y estándar.
- SalesForce lanza Einstein Studio y la capacidad de traer tu propio ...
- AdaTape Modelo base con cálculo adaptativo y lectura y escritura di...
- Revelado ciberataque a los registros electorales del Reino Unido
Los investigadores utilizaron el conjunto de datos de entrenamiento, que no incluye ninguna muestra de segmentación de razonamiento. Solo contenía instancias en las que los objetos objetivo se indicaban explícitamente en la prueba de consulta. Incluso sin el conjunto de datos de entrenamiento de razonamiento complejo, encontraron que LISA demostraba una impresionante capacidad de cero disparos en ReasonSeg (el conjunto de datos de referencia).
Los investigadores descubren que LISA realiza tareas de razonamiento complejas con un aumento de rendimiento de más del 20% en gIoU. Donde gIoU es el promedio de todas las intersecciones sobre uniones (IoUs) por imagen. También descubren que el LISA-13B supera al 7B en escenarios de consulta largos. Esto implica que un LLM multimodal más fuerte podría conducir a resultados aún mejores en el rendimiento. Los investigadores también demuestran que su modelo es competente con tareas de segmentación de referencia básicas.
Su trabajo futuro se enfocará más en la importancia de la capacidad de razonamiento propio, que es crucial para construir un sistema de percepción genuinamente inteligente. Establecer un conjunto de datos de referencia es esencial para la evaluación y fomenta a la comunidad a desarrollar nuevas técnicas.
Consulta el Documento y Github. Todo el crédito de esta investigación va a los investigadores de este proyecto. Además, no olvides unirte a nuestro SubReddit de ML con más de 28k seguidores, nuestra comunidad de Facebook con más de 40k miembros, el canal de Discord y el boletín de noticias por correo electrónico, donde compartimos las últimas noticias de investigación en IA, proyectos interesantes de IA y más.
La entrada Esta investigación de IA presenta LISA: Asistente de Segmentación Instruida por Lenguaje Grande que hereda las capacidades de generación de lenguaje del Modelo de Lenguaje Multimodal Grande (LLM) apareció primero en MarkTechPost.