Hugging Face presenta SafeCoder una solución de asistente de código construida para la empresa
Hugging Face presenta SafeCoder, asistente de código para empresas
Las soluciones de asistencia de código son herramientas o aplicaciones de software que ayudan a los desarrolladores a escribir y editar código. Estas soluciones de asistencia de código han ganado un uso generalizado recientemente debido a su gran importancia. Se están llevando a cabo experimentos e iniciativas de investigación a nivel mundial para avanzar en este campo. Estas soluciones de asistencia de código se basan en LLMs. Algunas soluciones de asistencia de código son GitHub Copilot, TabNine, IntelliCode, etc. Estas soluciones ofrecen un gran impulso en la productividad. Estas plataformas mejoran sustancialmente la productividad al ofrecer sugerencias y completar código contextualmente relevantes. Su influencia está contribuyendo a mejoras significativas en la eficiencia de los procesos de desarrollo de software.
Sin embargo, usar estas asistentes de código presenta un problema, ya que exponen el código base a un tercero. El código base se revela a terceros tanto durante el entrenamiento como durante la inferencia, ya que es probable que los LLM de código finamente ajustados filtren código de su conjunto de datos de entrenamiento durante la inferencia. SafeCoder permite a los clientes aprender el proceso de creación y actualización de sus modelos y mantener el control de sus capacidades de IA.
En consecuencia, los investigadores de Hugging Face han estudiado a fondo estas soluciones de asistente de código y han formulado un método llamado SafeCoder para ayudar a los clientes a construir sus propios LLM de código. Este método implica ajustar finamente el modelo en su código base privado, utilizando modelos y bibliotecas abiertas de vanguardia. Es importante destacar que este proceso permite a los clientes mantener la confidencialidad de su código evitando compartirlo con Hugging Face u otras entidades externas. Un principio fundamental de SafeCoder es que el código interno del cliente nunca será accesible para terceros (incluido Hugging Face) durante el entrenamiento o la inferencia. El código permanece confinado dentro de la Nube Privada Virtual (VPC) durante todo el entrenamiento y la inferencia, asegurando su integridad.
StarCoder ha sido entrenado con 15 mil millones de parámetros robustos, incorporando técnicas de optimización de código. La integración de Flash Attention eleva aún más la eficiencia del modelo, permitiéndole abarcar el contexto de 8,192 tokens. Se ha entrenado en más de 80 lenguajes de programación y ofrece un rendimiento de vanguardia en múltiples benchmarks.
- El Algoritmo de Descenso del Gradiente y la Intuición detrás de él
- Seaborn 0.12 Una guía perspicaz sobre la interfaz de objetos y gráf...
- Búsqueda semántica eficiente sobre texto no estructurado en Neo4j
Los investigadores comenzaron a participar en una fase de entrenamiento opcional para proporcionar sugerencias de código específicas para el usuario. El equipo de Hugging Face colaboró estrechamente con el equipo del cliente, proporcionando orientación paso a paso para curar y construir un conjunto de datos de entrenamiento. Este proceso se extiende a la creación de un modelo de generación de código personalizado mediante el ajuste fino, todo asegurando la máxima privacidad.
Durante la fase de implementación de SafeCoder, los clientes toman el control al implementar contenedores proporcionados por Hugging Face en su infraestructura. Estos contenedores se configuran para alinearse con la configuración de hardware específica del cliente, incluyendo opciones como GPUs NVIDIA, GPUs AMD Instinct, CPUs Intel Xeon, AWS Inferentia2 o aceleradores Habana Gaudi. Una vez implementados y activados los puntos finales de SafeCoder dentro de la VPC del cliente, los desarrolladores pueden integrar complementos compatibles con SafeCoder IDE. Esta integración permite a los desarrolladores recibir sugerencias de código en tiempo real mientras trabajan.
En el futuro, SafeCoder puede ofrecer otros modelos de código abierto de manera similar, construidos sobre conjuntos de datos éticamente obtenidos y transparentes, como el LLM base disponible para el ajuste fino.