DeepSeek, la start-up china de inteligencia artificial, anunció el lanzamiento de un modelo multimodal capaz de procesar documentos complejos y extensos usando considerablemente menos tokens, la unidad mínima de texto que un modelo procesa. La clave está en emplear la percepción visual como mecanismo de compresión de información, un avance que reduce drásticamente los costos computacionales asociados a la inteligencia artificial de última generación.
El nuevo modelo, DeepSeek-OCR (Optical Character Recognition), ya está disponible en plataformas como Hugging Face y GitHub. Surge tras una investigación centrada en el papel de los vision encoders para comprimir texto en large language models (LLMs), según explicó la compañía en un comunicado oficial. Esta estrategia permite que los LLMs analicen grandes volúmenes de texto sin un aumento proporcional en el consumo de recursos.
«A través de DeepSeek-OCR, demostramos que la compresión visión-texto puede lograr una reducción significativa de tokens, de 7 a 20 veces, en diferentes etapas de contexto histórico. Esto abre una prometedora vía para abordar los retos del procesamiento de contexto largo en LLMs», destacó la empresa[1].
DeepSeek-OCR está compuesto por dos módulos principales: DeepEncoder y DeepSeek3B-MoE-A570M como decodificador. Esta arquitectura sigue la línea de innovación y eficiencia que busca la compañía, como ya se evidenció en modelos anteriores como V3 y R1, lanzados en diciembre de 2024 y febrero de 2025, respectivamente[1].
La publicación de este modelo refuerza el compromiso de DeepSeek por incrementar la eficiencia de los modelos de inteligencia artificial y reducir tanto los costos de desarrollo como de uso, apuntando a democratizar el acceso a tecnologías avanzadas de procesamiento de lenguaje e imagen.