Investigadores de la Universidad Heriot-Watt y Alana AI proponen FurChat un nuevo agente conversacional encarnado basado en grandes modelos de lenguaje.
Investigadores de la Universidad Heriot-Watt y Alana AI proponen FurChat, un nuevo agente conversacional basado en grandes modelos de lenguaje.
Los Modelos de Lenguaje Grandes (LLMs) han tomado protagonismo en un mundo donde la tecnología avanza a pasos agigantados. Estos LLMs son programas informáticos increíblemente sofisticados que pueden entender, generar e interactuar con un lenguaje humano de manera sorprendentemente natural. En una investigación reciente, se ha presentado un novedoso agente conversacional encarnado conocido como FurChat. LLMs como GPT-3.5 han empujado los límites de lo que es posible en el procesamiento del lenguaje natural. Pueden entender el contexto, responder preguntas e incluso generar texto que parece escrito por un ser humano normal. Esta poderosa capacidad ha abierto puertas a innumerables oportunidades en diversos ámbitos como la robótica.
Investigadores de la Universidad Heriot-Watt y Alana AI proponen FurChat, un sistema revolucionario que puede funcionar como recepcionista, participar en conversaciones dinámicas y transmitir emociones a través de expresiones faciales. La implementación de FurChat en el National Robotarium ejemplifica su potencial transformador, facilitando conversaciones naturales con los visitantes y ofreciendo información variada sobre instalaciones, noticias, investigaciones y eventos próximos.
El robot Furhat, una cabeza robótica humanoide, tiene una máscara tridimensional que se asemeja de cerca a un rostro humano y utiliza un microproyector para proyectar una expresión facial animada sobre esta máscara. El robot está montado en una plataforma monitorizada que permite que su cabeza se mueva y asienta, mejorando sus interacciones realistas. Para facilitar la comunicación, Furhat está equipado con una matriz de micrófonos y altavoces, lo que le permite reconocer y responder al habla humana.
Su sistema está diseñado para aplicaciones fluidas. La gestión del diálogo implica tres componentes principales: NLU, DM y una base de datos personalizada. NLU analiza el texto entrante, clasifica las intenciones y evalúa la confianza. DM mantiene el flujo de conversación, envía indicaciones a LLM y procesa las respuestas. Se crea una base de datos personalizada mediante el raspado web del sitio web de National Robotarium, que proporciona datos relevantes para las intenciones del usuario. La ingeniería de indicaciones garantiza respuestas naturales de LLM. Combina técnicas de aprendizaje rápido y de aprendizaje de indicaciones para generar respuestas contextualmente conscientes. El análisis de gestos aprovecha los gestos faciales del SDK de Furhat y el reconocimiento de sentimientos de LLM a partir del texto para sincronizar las expresiones faciales con el habla, creando una interacción inmersiva. Se utiliza Amazon Polly para la conversión de texto a voz, que está disponible en FurhatOS.
- Ajustar el Falcon 7B y otros LLMs en Amazon SageMaker con el decora...
- Crear un pipeline de clasificación con la clasificación personaliza...
- Estados Unidos desafía la dominancia de búsqueda de Google
En el futuro, los investigadores se preparan para expandir sus capacidades. Tienen la mira puesta en habilitar interacciones multiusuario, un área de investigación activa en el campo de los robots recepcionistas. Además, para abordar el problema planteado por las alucinaciones en los modelos de lenguaje, planean explorar estrategias como el ajuste fino del modelo de lenguaje y experimentar con la generación directa de conversaciones, reduciendo la dependencia de los componentes de NLU. Un hito importante para los investigadores es la demostración de FurChat en la conferencia Sigdial. Servirá como plataforma para mostrar las capacidades del sistema a una audiencia más amplia de colegas y expertos.