La startup francesa lanza su familia Mistral 3, desafiando a los gigantes tecnológicos con modelos eficientes que funcionan offline y pueden superar a los modelos de código cerrado tras el fine-tuning
La startup francesa de inteligencia artificial Mistral lanzó el martes su nueva familia de modelos de pesos abiertos Mistral 3, un lanzamiento que busca demostrar que puede liderar en la disponibilidad pública de IA y servir mejor a los clientes empresariales que sus rivales de Big Tech.
El lanzamiento de 10 modelos incluye un gran modelo de vanguardia con capacidades multimodales y multilingües y nueve modelos más pequeños capaces de funcionar offline y completamente personalizables.
Una apuesta contra los modelos de código cerrado
El lanzamiento llega cuando Mistral, que desarrolla modelos de lenguaje de pesos abiertos y el chatbot de IA Le Chat enfocado en Europa, parecía estar corriendo detrás de algunos de los modelos de vanguardia de código cerrado de Silicon Valley. Los modelos de pesos abiertos liberan sus pesos públicamente para que cualquiera pueda descargarlos y ejecutarlos. Mientras tanto, los modelos de código cerrado, como ChatGPT de OpenAI, mantienen sus pesos como propiedad y solo proporcionan acceso a través de APIs o interfaces controladas.
La startup de dos años, fundada por antiguos investigadores de DeepMind y Meta, ha recaudado aproximadamente $2,7 mil millones hasta la fecha con una valoración de $13,7 mil millones — migajas comparado con las cifras que manejan competidores como OpenAI ($57 mil millones recaudados con una valoración de $500 mil millones) y Anthropic ($45 mil millones recaudados con una valoración de $350 mil millones).
Pero Mistral está tratando de demostrar que más grande no siempre es mejor, especialmente para casos de uso empresariales.
«Nuestros clientes a veces están contentos de comenzar con un modelo muy grande [cerrado] que no tienen que ajustar… pero cuando lo implementan, se dan cuenta de que es caro, es lento», dijo Guillaume Lample, cofundador y científico jefe de Mistral. «Entonces vienen a nosotros para hacer fine-tuning de modelos pequeños para manejar el caso de uso [de manera más eficiente].»
«En la práctica, la gran mayoría de casos de uso empresariales son cosas que pueden ser abordadas por modelos pequeños, especialmente si les haces fine-tuning», continuó Lample.
Pequeño pero poderoso: la ventaja del fine-tuning
Las comparaciones iniciales de benchmarks, que sitúan a los modelos más pequeños de Mistral muy por debajo de sus competidores de código cerrado, pueden ser engañosas, dijo Lample. Los grandes modelos de código cerrado pueden funcionar mejor «out-of-the-box», pero las verdaderas ganancias ocurren cuando personalizas.
«En muchos casos, puedes realmente igualar o incluso superar el rendimiento de modelos de código cerrado», afirmó.
Mistral Large 3: compitiendo en la vanguardia
El gran modelo de vanguardia de Mistral, denominado Mistral Large 3, alcanza algunas de las capacidades importantes que presumen los grandes modelos de IA de código cerrado como GPT-4o de OpenAI y Gemini 2 de Google, mientras también compite con varios competidores de pesos abiertos. Large 3 está entre los primeros modelos de vanguardia abiertos con capacidades multimodales y multilingües todo en uno, poniéndolo a la par con Llama 3 de Meta y Qwen3-Omni de Alibaba.
Large 3 también cuenta con una arquitectura «granular Mixture of Experts» con 41 mil millones de parámetros activos y 675 mil millones de parámetros totales, permitiendo razonamiento eficiente a través de una ventana de contexto de 256,000 tokens. Este diseño ofrece tanto velocidad como capacidad, permitiéndole procesar documentos extensos y funcionar como un asistente agéntico para tareas empresariales complejas.
Ministral 3: la revolución de los modelos pequeños
Con su nueva familia de modelos pequeños, denominada Ministral 3, la compañía está haciendo la afirmación audaz de que los modelos más pequeños no son solo suficientes — son superiores.
La línea incluye nueve modelos densos distintos de alto rendimiento en tres tamaños (14 mil millones, 8 mil millones y 3 mil millones de parámetros) y tres variantes:
- Base: el modelo base fundamental pre-entrenado
- Instruct: optimizado para chat y flujos de trabajo de asistente
- Reasoning: optimizado para lógica compleja y tareas analíticas
Mistral dice que este rango da a desarrolladores y empresas la flexibilidad para hacer coincidir modelos con su rendimiento exacto, ya sea que busquen rendimiento puro, eficiencia de costos o capacidades especializadas. La compañía afirma que Ministral 3 puntúa igual o mejor que otros líderes de pesos abiertos mientras es más eficiente y genera menos tokens para tareas equivalentes.
Accesibilidad e independencia
Una parte importante de la propuesta es la practicidad. Lample enfatiza que Ministral 3 puede ejecutarse en una sola GPU, haciéndolo desplegable en hardware asequible — desde servidores locales hasta laptops, robots y otros dispositivos edge que pueden tener conectividad limitada.
«Es parte de nuestra misión asegurar que la IA sea accesible para todos, especialmente personas sin acceso a internet», dijo. «No queremos que la IA sea controlada solo por un par de grandes laboratorios.»
Aplicaciones en el mundo físico
Esa accesibilidad está impulsando el creciente enfoque de Mistral en IA física. A principios de este año, la compañía comenzó a trabajar para integrar sus modelos más pequeños en robots, drones y vehículos. Mistral está colaborando con:
- La Home Team Science and Technology Agency (HTX) de Singapur en modelos especializados para robots, sistemas de ciberseguridad y seguridad contra incendios
- La startup alemana de tecnología de defensa Helsing en modelos vision-language-action para drones
- El fabricante de automóviles Stellantis en un asistente de IA para el automóvil
Para Mistral, la confiabilidad e independencia son tan críticas como el rendimiento.
«Usar una API de nuestros competidores que se caerá durante media hora cada dos semanas — si eres una gran empresa, no puedes permitirte esto», dijo Lample.
La estrategia de Mistral representa una apuesta significativa de que el futuro de la IA empresarial no está en modelos cada vez más grandes y costosos, sino en soluciones más pequeñas, eficientes y personalizables que las empresas pueden poseer y controlar completamente.









