Investigadores de USC y Microsoft proponen UniversalNER un nuevo modelo de IA entrenado con destilación dirigida que reconoce más de 13k tipos de entidades y supera la precisión de NER de ChatGPT en un 9% F1 en 43 conjuntos de datos.

Investigadores de USC y Microsoft proponen UniversalNER, un nuevo modelo de IA entrenado con destilación dirigida que supera la precisión de NER de ChatGPT en un 9% F1 en 43 conjuntos de datos al reconocer más de 13k tipos de entidades.

ChatGPT y otros modelos de lenguaje de gran tamaño (LLM) han demostrado impresionantes habilidades de generalización, pero sus costos de entrenamiento e inferencia a menudo son prohibitivos. Además, el acceso a caja blanca a los pesos del modelo y las probabilidades de inferencia a menudo es crucial para la explicabilidad y la confianza en aplicaciones críticas para la misión, como la atención médica. Como resultado, el ajuste de instrucciones ha ganado popularidad como un método para condensar LLM en modelos de estudiantes más asequibles y transparentes. Estos modelos de estudiantes han demostrado habilidades convincentes para imitar a ChatGPT, como Alpaca y Vicuna. Un examen detenido revela que todavía necesitan ponerse al día con el LLM ideal, especialmente en aplicaciones específicas que se dirigen específicamente.

Debido a la capacidad de cómputo limitada disponible, una destilación genérica solo puede crear una aproximación superficial del LLM original en todas las aplicaciones concebibles. En cambio, investigan la destilación enfocada en esta investigación, donde entrenan modelos de estudiantes a través del ajuste de instrucciones enfocado en la misión para una clase diversa de aplicaciones como la extracción de información abierta. Demuestran que, al mantener su generalización en diferentes tipos y dominios semánticos, esto puede reproducir de manera máxima las capacidades del LLM para la clase de aplicación especificada. Dado que el reconocimiento de entidades nombradas (NER) es uno de los problemas más fundamentales en el procesamiento del lenguaje natural, lo eligieron para su estudio de caso. La investigación reciente demuestra que los LLM todavía necesitan ponerse al día con el sistema supervisado más avanzado para un tipo de entidad cuando hay muchas instancias anotadas.

Sin embargo, la mayoría de los tipos de objetos necesitan ejemplos con poca anotación. El desarrollo de ejemplos anotados es costoso y consume mucho tiempo, especialmente en sectores de alto valor como la biología, donde la anotación requiere conocimientos especializados. Además, los nuevos tipos de entidades están surgiendo continuamente. Los modelos supervisados de NER también muestran una baja generalización para nuevos dominios y tipos de entidades, ya que se entrenan en tipos y dominios de entidades preespecificados. Esbozan un proceso genérico para la destilación enfocada de LLM y muestran cómo se puede utilizar para NER de dominio abierto. Los investigadores de la Universidad del Sur de California e Investigación de Microsoft demuestran cómo utilizar ChatGPT para crear datos de ajuste de instrucciones para NER a partir de grandes cantidades de texto en línea no etiquetado y utilizar LLaMA para crear los modelos UniversalNER (abreviado UniNER).

Presentan el conjunto de datos de evaluación de NER más grande y variado hasta la fecha (evaluación UniversalNER), que consta de 43 conjuntos de datos de 9 disciplinas diferentes, incluyendo medicina, programación, redes sociales, derecho y finanzas. LLaMA y Alpaca obtienen malos resultados en esta evaluación (alrededor de 0 de F1) en NER sin entrenamiento. Vicuna tiene un rendimiento significativamente mejor en comparación, pero en F1 promedio, todavía está por detrás de ChatGPT en más de 20 puntos absolutos. En contraste, UniversalNER supera a Vicuna en más de 30 puntos absolutos en F1 promedio y logra una precisión de NER de vanguardia en decenas de miles de tipos de entidades en la evaluación UniversalNER. Además de replicar la capacidad de ChatGPT para reconocer cualquier entidad con un número reducido de parámetros (7-13 mil millones), UniversalNER también supera su precisión de NER en 7-9 puntos absolutos en F1 promedio.

Sorprendentemente, UniversalNER supera significativamente a los sistemas de instrucción ajustados para múltiples tareas de vanguardia como InstructUIE, que utiliza instancias de NER supervisadas. También realizan extensas pruebas de ablación para evaluar los efectos de diferentes componentes de destilación, como las instrucciones y el muestreo negativo. Proporcionarán su receta de destilación, datos y el modelo UniversalNER y presentarán una demostración interactiva para ayudar en estudios posteriores sobre la destilación enfocada.