Este artículo de IA presenta el Puntaje de Razonamiento Impactado por la Complejidad (CIRS) Evaluando el papel de la complejidad del código en la mejora de las habilidades de razonamiento de los modelos de lenguaje grandes.

Este artículo de IA presenta el CIRS, que evalúa la complejidad del código en la mejora de las habilidades de razonamiento de modelos de lenguaje grandes.

Los modelos de lenguaje grandes (LLMs) se han convertido en un enfoque de propósito general para la resolución de problemas de inteligencia artificial encarnada. Cuando los agentes necesitan comprender las sutilezas semánticas de su entorno para un control eficiente, las habilidades de razonamiento de los LLMs son cruciales en la IA encarnada. Métodos recientes, a los que se refieren como “programas de pensamiento”, utilizan lenguajes de programación como un sistema de instrucción mejorado para tareas de razonamiento desafiantes. El sistema de instrucción basado en programas de pensamiento separa los problemas en segmentos de código ejecutable y los aborda uno a la vez, a diferencia del sistema de instrucción basado en cadenas de pensamiento. Sin embargo, la relación entre el uso de lenguajes de programación y el desarrollo de las habilidades de pensamiento de los LLMs todavía requiere más investigación. ¿Cuándo funciona el sistema de instrucción basado en programas de pensamiento para el razonamiento2 sigue siendo la pregunta crucial?

En este documento se propone el puntaje de razonamiento afectado por la complejidad (CIRS), una métrica exhaustiva para la relación entre las etapas de razonamiento del código y sus efectos en las habilidades de razonamiento de los LLMs. Argumentan que los lenguajes de programación son inherentemente superiores al lenguaje natural serializado debido a (1) su mejor modelado de estructuras complejas y (2) su lógica orientada a procedimientos innata que ayuda a resolver dificultades que involucran varios pasos de pensamiento. Debido a esto, su medida sugerida evalúa la complejidad del código desde un punto de vista tanto estructural como lógico. En particular, calculan la complejidad estructural de las etapas de razonamiento del código (razones) utilizando un árbol de sintaxis abstracta (AST). Su método utiliza tres indicadores del AST (recuento de nodos, tipo de nodos y profundidad) para mantener toda la información estructural en el AST representada como un árbol, lo que comprende completamente las estructuras del código.

Investigadores de la Universidad de Zhejiang, el Laboratorio Donghai y la Universidad Nacional de Singapur desarrollan una forma de determinar la complejidad lógica combinando la dificultad de codificación con la complejidad ciclomática, inspirándose en la idea de Halsted y McCabe. De esta manera, es posible considerar los operadores, operandos y el flujo de control del código. Pueden calcular explícitamente la complejidad lógica dentro del código. Descubren a través de una investigación empírica utilizando su CIRS sugerido que los LLMs actuales tienen una comprensión limitada de la información simbólica como el código y que no todos los datos de código sofisticados pueden ser enseñados y comprendidos por los LLMs. Los bloques de código de baja complejidad carecen de la información necesaria, pero los bloques de código de alta complejidad podrían ser demasiado desafiantes para que los LLMs los entiendan. Para mejorar efectivamente las habilidades de razonamiento de los LLMs, solo se necesita información de código con la cantidad adecuada de complejidad (estructura y lógica), tanto básica como detallada.

Proporcionan un método para sintetizar y estratificar automáticamente los datos que pueden producir y excluir datos con la mayor capacidad de razonamiento. Utilizan su enfoque en dos situaciones diferentes: (1) dirigir la creación de instrucciones para actividades que requieren pensamiento matemático y (2) filtrar datos de código para actividades que implican la creación de código. Su estrategia sugerida supera a los modelos de referencia en el razonamiento matemático y demuestra éxito en desafíos de creación de código.

Sus contribuciones a esta publicación son:

• Sugieren CIRS, un enfoque único para medir la dificultad de razonamiento de los datos de código. Su método, que analiza los datos de código desde ángulos lógicos y estructurales, puede medir con precisión la relación entre la complejidad del código y la capacidad de razonamiento.

• Realizan un análisis empírico de los efectos de varios niveles de complejidad, determinando el grado ideal de lenguajes de código que los LLMs pueden aprender como el determinante clave de las habilidades de razonamiento basadas en el sistema de instrucción basado en programas de pensamiento.

• Crean un algoritmo de auto-síntesis y estratificación y utilizan su método para filtrar datos de código y crear instrucciones para trabajos que requieren razonamiento matemático. Numerosos hallazgos respaldan la viabilidad de su punto de vista sugerido.