Anthropic lanzó su modelo Claude 2 con mejoras significativas en programación, matemáticas y razonamiento en comparación con modelos anteriores
Anthropic lanzó su modelo Claude 2 con mejoras significativas en programación, matemáticas y razonamiento.
Anthropic lanzó su nuevo modelo llamado Claude 2, presumiendo un mejor rendimiento, respuestas más largas y accesibilidad a través de una API y un sitio web de beta pública. Los usuarios han elogiado las habilidades conversacionales de Claude, las explicaciones claras, la reducida probabilidad de generar salidas dañinas y la mejora de la memoria en comparación con modelos anteriores. Especialmente, Claude 2 mostró un mejor rendimiento en tareas de codificación, matemáticas y razonamiento. Por ejemplo, obtuvo un puntaje del 76,5% en la sección de opción múltiple del examen de abogacía, superando el puntaje de su predecesor que fue del 73,0%. En comparación con los estudiantes universitarios que solicitan ingresar a la escuela de posgrado, Claude 2 tuvo un rendimiento por encima del percentil 90 en los exámenes de lectura y escritura del GRE, y un rendimiento similar al de los solicitantes medianos en razonamiento cuantitativo.
Los desarrolladores imaginan a Claude como un colega virtual amigable y entusiasta o un asistente personal capaz de comprender instrucciones en lenguaje natural para ayudar con diversas tareas. La API de Claude 2 para empresas está disponible al mismo precio que su predecesor, Claude 1.3. Además, las personas en Estados Unidos y Reino Unido ya pueden utilizar la experiencia de chat beta.
Se han realizado esfuerzos para mejorar el rendimiento y la seguridad de los modelos de Claude. Se han aumentado las longitudes de entrada y salida, lo que permite a los usuarios ingresar hasta 100K tokens por indicación. Esto permite que Claude procese documentación técnica extensa y libros, y genere documentos más largos como memorandos, cartas e historias que contengan miles de tokens.
El último modelo, Claude 2, tiene habilidades de codificación significativamente mejoradas, obteniendo un puntaje del 71,2% en la prueba de codificación de Python Codex HumanEval, en comparación con el puntaje de Claude 1.3 que fue del 56,0%. En el conjunto de problemas matemáticos GSM8k, Claude 2 obtuvo un puntaje del 88,0% en comparación con el 85,2% de su predecesor. Los planes futuros incluyen la implementación gradual de mejoras de capacidad para Claude 2.
- Un nuevo estudio de la Universidad de Wisconsin investiga cómo los ...
- KPMG apuesta más de $2 mil millones en IA con el objetivo de alcanz...
- Por qué los datos *no* son el nuevo petróleo y los mercados de dato...
Las medidas de seguridad han sido un enfoque de desarrollo, con el objetivo de reducir salidas dañinas y ofensivas. Una evaluación interna de red teaming evalúa los modelos de Claude en base a un conjunto representativo de indicaciones dañinas, combinando pruebas automatizadas con verificaciones manuales. Claude 2 demostró tener el doble de efectividad al proporcionar respuestas inofensivas en comparación con Claude 1.3. Si bien ningún modelo es completamente inmune a salidas indeseables, se han utilizado técnicas de seguridad y amplias pruebas de red teaming para mejorar la calidad general de las salidas.
Varios negocios ya han adoptado la API de Claude, con socios como Jasper y Sourcegraph aprovechando las capacidades de Claude 2. Jasper, una plataforma de IA generativa, destacó la compatibilidad de Claude 2 con modelos de vanguardia para diversos casos de uso, enfatizando su fortaleza en aplicaciones de largo alcance y baja latencia. Sourcegraph, una plataforma de IA para código, incorpora la capacidad de razonamiento mejorada de Claude 2 en su asistente de codificación, Cody. Cody puede proporcionar respuestas más precisas a las consultas de los usuarios y transmitir un contexto de código aumentado a través de ventanas de contexto de hasta 100K. El entrenamiento de Claude 2 con datos recientes proporciona a Cody conocimiento de marcos y bibliotecas más nuevos, lo que capacita a los desarrolladores para construir software de manera más eficiente.
En general, el lanzamiento de Claude 2 significa avances en rendimiento, seguridad y versatilidad, permitiendo a los usuarios aprovechar sus capacidades en varios dominios.