El 29 de abril de 2025, el equipo de Qwen ha anunciado el lanzamiento de Qwen3, su más reciente modelo de lenguaje que promete superar a sus predecesores y competidores directos. El modelo insignia, Qwen3-235B-A22B, ha demostrado ser altamente competitivo en evaluaciones de benchmarks de tareas de programación, matemáticas y capacidades generales, posicionándose al nivel de otros modelos de vanguardia como DeepSeek-R1 y Gemini-2.5-Pro.
Innovaciones y Características Clave
Modelos Disponibles
Qwen3 ofrece tanto modelos grandes como pequeños, destacándose:
- Qwen3-235B-A22B: Con 235 mil millones de parámetros, es uno de los modelos más grandes del portafolio.
- Qwen3-30B-A3B: Un modelo más pequeño, pero potente con 30 mil millones de parámetros, que supera a modelos de 32B activando solo una fracción de sus parámetros.
- Modelos densos adicionales incluyen Qwen3-32B, Qwen3-14B, Qwen3-8B, entre otros.
Capacidad Multilingüe
Los modelos de Qwen3 respaldan 119 idiomas y dialectos, lo que promueve su uso global en diversas aplicaciones. Entre las lenguas soportadas se encuentran:
- Idiomas de la familia Indo-Europea: Inglés, Francés, Español, entre otros.
- Idiomas de la familia Sino-Tibetana: Chino (simplificado y tradicional).
- Idiomas de la familia Afro-Asiática: Árabe y Hebreo.
Modos de Pensamiento Híbridos
Una de las innovaciones más interesantes incluye un enfoque híbrido de resolución de problemas:
- Modo de Pensamiento: Permite un razonamiento detallado en problemas complejos.
- Modo No-Pensante: Ofrece respuestas rápidas para preguntas sencillas, priorizando la velocidad sobre la profundidad.
Esta flexibilidad mejora la manera en que los usuarios pueden interactuar con el modelo, adaptando la cantidad de «pensamiento» según la complejidad del problema.
Proceso de Pre-entrenamiento Mejorado
El entrenamiento de Qwen3 se ha expandido significativamente en comparación a modelos anteriores, utilizando aproximadamente 36 billones de tokens de datos, casi el doble que su predecesor, Qwen2.5. Se han recolectado datos de diversas fuentes, incluidas páginas web y documentos PDF, para formar un conjunto de datos más robusto y diverso.
El proceso de pre-entrenamiento se desarrolló en tres etapas, enfocándose en habilidades lingüísticas básicas, datos intensivos en conocimiento y, finalmente, en la implementación de funciones de contexto largo.
Capacidades Agenticas Avanzadas
Qwen3 ha sido optimizado para mejorar sus capacidades en programación y competencias agenticas, especialmente con la integración de herramientas a través de su framework Qwen-Agent. Las nuevas características facilitan la llamada de herramientas y la interacción con entornos externos, ampliando el uso potencial del modelo en aplicaciones prácticas.
Mirando Hacia el Futuro
Con el lanzamiento de Qwen3, se abre una nueva puerta hacia el futuro de la inteligencia artificial. El equipo reconoce que están en el umbral de avances hacia la Inteligencia General Artificial (AGI) y la Inteligencia Sobrehumana (ASI). Con la meta de seguir refinando la arquitectura del modelo y su metodología de entrenamiento, se espera que la próxima iteración traiga avances significativos, no solo para los desarrolladores y investigadores, sino para la sociedad en general.