Una nueva investigación de Google AI propone reducir significativamente la carga en LLMs mediante el uso de una nueva técnica llamada Pairwise Ranking Prompting (PRP).

Google AI propone reducir la carga en LLMs con la técnica PRP.

En comparación con sus contrapartes supervisadas, que pueden entrenarse con millones de ejemplos etiquetados, los Modelos de Lenguaje Grandes (LLMs, por sus siglas en inglés) como GPT-3 y PaLM han demostrado un rendimiento impresionante en diversas tareas de lenguaje natural, incluso en el escenario de cero disparo. Sin embargo, utilizar LLMs para resolver el problema básico de clasificación de texto ha dado resultados mixtos. Los hallazgos existentes suelen tener un rendimiento notablemente inferior a los clasificadores de referencia entrenados. La única excepción es una nueva estrategia que se basa en el sistema masivo, de caja negra y comercial GPT-4.

Argumentan que depender de dichos sistemas de caja negra no es ideal para los investigadores académicos debido a restricciones significativas de costos y limitaciones de acceso a estos sistemas. Sin embargo, reconocen el valor de dichas exploraciones para demostrar la capacidad de los LLMs en tareas de clasificación. Las métricas de clasificación pueden disminuir en más del 50% cuando cambia el orden de los documentos de entrada. En este estudio, primero explican por qué los LLMs tienen dificultades con los problemas de clasificación al utilizar las formulaciones puntual y de lista de los enfoques actuales. Dado que las APIs de generación exclusiva de LLMs (como GPT-4) no permiten esto, la clasificación para las técnicas puntuales requiere que los LLMs produzcan probabilidades de predicción calibradas antes de ordenar, lo cual se sabe que es extremadamente desafiante.

Los LLMs suelen proporcionar salidas inconsistentes o sin sentido, incluso con instrucciones que parecen extremadamente obvias para los humanos en técnicas de lista. Empíricamente, descubren que las pautas de clasificación de lista de trabajos anteriores proporcionan resultados en LLMs del tamaño de VoAGI que son completamente irrelevantes. Estos hallazgos demuestran que los LLMs actuales ampliamente utilizados necesitan comprender tareas de clasificación, posiblemente debido a la falta de conciencia de clasificación en sus técnicas de preentrenamiento y ajuste fino. Para reducir considerablemente la complejidad de la tarea para los LLMs y abordar el problema de calibración, los investigadores de Google Research proponen el paradigma de clasificación por pares (PRP, por sus siglas en inglés), que utiliza la consulta y un par de documentos como la pauta para tareas de clasificación. PRP se basa en una arquitectura de pauta sencilla y ofrece tanto APIs de generación como de puntuación de LLMs de forma predeterminada.

Discuten varias variantes de PRP para responder a preocupaciones sobre la eficiencia. Los resultados de PRP son los primeros en la literatura en utilizar LLMs de tamaño moderado y de código abierto en conjuntos de datos de referencia tradicionales para lograr un rendimiento de clasificación de última generación. En TREC-DL2020, PRP basado en el modelo FLAN-UL2 de 20 mil millones de parámetros supera al mejor método anterior en la literatura, basado en el GPT-4 comercial de caja negra con un tamaño de modelo (estimado) 50 veces mayor, en más del 5% en NDCG@1. En TREC-DL2019, PRP puede superar a soluciones actuales, como InstructGPT, que tiene 175 mil millones de parámetros, en más del 10% para prácticamente todas las medidas de clasificación, pero solo tiene un rendimiento inferior a la solución GPT-4 en las métricas NDCG@5 y NDCG@10. Además, presentan resultados competitivos utilizando modelos FLAN-T5 con 3 mil millones y 13 mil millones de parámetros para ilustrar la efectividad y aplicabilidad de PRP.

También revisan las ventajas adicionales de PRP, como su soporte para APIs de LLMs para puntuación y generación, y su insensibilidad al orden de entrada. En conclusión, este trabajo realiza tres contribuciones:

• Demuestran que la pauta de clasificación por pares funciona bien para la clasificación de cero disparo utilizando LLMs por primera vez. Sus hallazgos se basan en LLMs de tamaño moderado y de código abierto, en comparación con los sistemas existentes que utilizan modelos comerciales de caja negra y considerablemente más grandes.

• Puede producir un rendimiento de clasificación de última generación utilizando mecanismos de pauta y puntuación sencillos. El descubrimiento facilitará futuros estudios en esta área.

• Al lograr una complejidad lineal, examinan varias mejoras de eficiencia y demuestran un buen rendimiento empírico.