Anthropic lanzó su modelo Claude 2 con mejoras significativas en programación, matemáticas y razonamiento en comparación con modelos anteriores

Anthropic lanzó su modelo Claude 2 con mejoras significativas en programación, matemáticas y razonamiento.

Anthropic lanzó su nuevo modelo llamado Claude 2, presumiendo un mejor rendimiento, respuestas más largas y accesibilidad a través de una API y un sitio web de beta pública. Los usuarios han elogiado las habilidades conversacionales de Claude, las explicaciones claras, la reducida probabilidad de generar salidas dañinas y la mejora de la memoria en comparación con modelos anteriores. Especialmente, Claude 2 mostró un mejor rendimiento en tareas de codificación, matemáticas y razonamiento. Por ejemplo, obtuvo un puntaje del 76,5% en la sección de opción múltiple del examen de abogacía, superando el puntaje de su predecesor que fue del 73,0%. En comparación con los estudiantes universitarios que solicitan ingresar a la escuela de posgrado, Claude 2 tuvo un rendimiento por encima del percentil 90 en los exámenes de lectura y escritura del GRE, y un rendimiento similar al de los solicitantes medianos en razonamiento cuantitativo.

Los desarrolladores imaginan a Claude como un colega virtual amigable y entusiasta o un asistente personal capaz de comprender instrucciones en lenguaje natural para ayudar con diversas tareas. La API de Claude 2 para empresas está disponible al mismo precio que su predecesor, Claude 1.3. Además, las personas en Estados Unidos y Reino Unido ya pueden utilizar la experiencia de chat beta.

Se han realizado esfuerzos para mejorar el rendimiento y la seguridad de los modelos de Claude. Se han aumentado las longitudes de entrada y salida, lo que permite a los usuarios ingresar hasta 100K tokens por indicación. Esto permite que Claude procese documentación técnica extensa y libros, y genere documentos más largos como memorandos, cartas e historias que contengan miles de tokens.

El último modelo, Claude 2, tiene habilidades de codificación significativamente mejoradas, obteniendo un puntaje del 71,2% en la prueba de codificación de Python Codex HumanEval, en comparación con el puntaje de Claude 1.3 que fue del 56,0%. En el conjunto de problemas matemáticos GSM8k, Claude 2 obtuvo un puntaje del 88,0% en comparación con el 85,2% de su predecesor. Los planes futuros incluyen la implementación gradual de mejoras de capacidad para Claude 2.

Las medidas de seguridad han sido un enfoque de desarrollo, con el objetivo de reducir salidas dañinas y ofensivas. Una evaluación interna de red teaming evalúa los modelos de Claude en base a un conjunto representativo de indicaciones dañinas, combinando pruebas automatizadas con verificaciones manuales. Claude 2 demostró tener el doble de efectividad al proporcionar respuestas inofensivas en comparación con Claude 1.3. Si bien ningún modelo es completamente inmune a salidas indeseables, se han utilizado técnicas de seguridad y amplias pruebas de red teaming para mejorar la calidad general de las salidas.

Varios negocios ya han adoptado la API de Claude, con socios como Jasper y Sourcegraph aprovechando las capacidades de Claude 2. Jasper, una plataforma de IA generativa, destacó la compatibilidad de Claude 2 con modelos de vanguardia para diversos casos de uso, enfatizando su fortaleza en aplicaciones de largo alcance y baja latencia. Sourcegraph, una plataforma de IA para código, incorpora la capacidad de razonamiento mejorada de Claude 2 en su asistente de codificación, Cody. Cody puede proporcionar respuestas más precisas a las consultas de los usuarios y transmitir un contexto de código aumentado a través de ventanas de contexto de hasta 100K. El entrenamiento de Claude 2 con datos recientes proporciona a Cody conocimiento de marcos y bibliotecas más nuevos, lo que capacita a los desarrolladores para construir software de manera más eficiente.

En general, el lanzamiento de Claude 2 significa avances en rendimiento, seguridad y versatilidad, permitiendo a los usuarios aprovechar sus capacidades en varios dominios.