StarCoder2, la revolución en generación de código por Nvidia, ServiceNow y Hugging Face

ServiceNow, Hugging Face y Nvidia han unido fuerzas para lanzar StarCoder2, una nueva herramienta diseñada para simplificar la vida de los programadores. Este modelo de lenguaje de máquina grande (LLM), capaz de generar código, ha sido entrenado en 619 lenguajes de programación y está disponible en tres versiones con diferentes capacidades: una versión de 15 mil millones de parámetros desarrollada por Nvidia, una de tres mil millones de parámetros por ServiceNow, y una de siete mil millones de parámetros por Hugging Face.

StarCoder2 es el resultado de un esfuerzo colaborativo dentro de la comunidad BigCode, y se distingue por su enfoque en la transparencia y la rentabilidad, al mismo tiempo que respeta los deseos de los desarrolladores en GitHub. Este LLM solo utiliza código de repositorios con licencias permisivas y código público, basándose en una colección de código fuente denominada «The Stack v2», que originalmente abarcaba 67.5TB de código, reducidos a 32.1TB tras un proceso de deduplicación.

Una de las principales ventajas de un LLM especializado en codificación como StarCoder2 es su eficiencia en términos de tamaño, lo que lo hace más portable. Según el documento de investigación del proyecto, incluso la versión de 15 mil millones de parámetros de StarCoder2 logra igualar o superar el rendimiento de modelos mucho mayores, como CodeLlama-34B, a pesar de tener la mitad de su tamaño. Asombrosamente, la versión de tres mil millones de parámetros de StarCoder2 supera al modelo original de StarCoder, que también contaba con 15 mil millones de parámetros.

Las diferencias entre los modelos pequeño, mediano y grande de StarCoder2 radican principalmente en los lenguajes de programación soportados y los datos de entrenamiento. Mientras que el modelo más grande maneja 619 lenguajes, las versiones de siete mil millones y tres mil millones de parámetros se centran en 17 lenguajes clave, que incluyen C, C++, JavaScript, Python, SQL, C#, Kotlin, R, Shell, Go, Lua, Ruby, Swift, Java, PHP, Rust y TypeScript. Además, StarCoder2 ofrece una ventana de contexto de 16,000 tokens, ideal para bases de código de tamaño pequeño a mediano, y su versión de 15 mil millones de parámetros alcanza un 46.3% en el benchmark HumanEval, superando significativamente el 29.3% del StarCoder original.

Aunque el modelo de 15 mil millones de parámetros de StarCoder2 no supera al DeepSeekCoder-33B, considerado el mejor modelo de codificación disponible, se le acerca bastante, lo cual es notable para un modelo de su tamaño. Los equipos detrás de StarCoder2 destacan la transparencia total en los datos de entrenamiento y la liberación de los pesos del modelo como pasos hacia el aumento de la confianza en los modelos desarrollados y el empoderamiento de otros equipos de ingeniería y científicos para construir sobre sus esfuerzos.

StarCoder2 está disponible en Hugging Face, y Nvidia ha compartido instrucciones sobre cómo personalizar y desplegar el modelo por cuenta propia. Es posible ejecutarlo tanto en CPU como en tarjetas gráficas Nvidia, y las variantes más pequeñas requieren menos RAM, lo que facilita su ejecución en una gama más amplia de plataformas. Todos los modelos se pueden desplegar utilizando Python, y Hugging Face proporciona instrucciones detalladas para cada modelo y cómo usarlo en computadoras personales.

Fuente

Las últimas noticias en nuestro podcast semanal

Comentarios

No hay comentarios aún. ¿Por qué no comienzas el debate?

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.