OpenAI ha anunciado su nuevo modelo insignia, el GPT-4o, marcando un avance significativo hacia interacciones más naturales entre humanos y computadoras. Este modelo es capaz de procesar y generar respuestas en tiempo real utilizando combinaciones de texto, audio e imágenes, un logro que potencia la inmediatez en la comunicación.
El GPT-4o, apodado así por su capacidad «omnidireccional», puede responder a entradas de audio en apenas 232 milisegundos, y maneja el texto en inglés y código al nivel de su predecesor GPT-4 Turbo, pero con notables mejoras en otros idiomas y una reducción del 50% en costes de API. Este modelo unifica las capacidades de visión y comprensión auditiva, superando a modelos anteriores, lo que facilita una experiencia más integrada y fluida.
Anteriormente, la modalidad de voz se basaba en un proceso de tres pasos que incluía la transcripción de audio a texto y viceversa, con ciertas pérdidas de información. El GPT-4o elimina estas barreras con un enfoque de entrenamiento end-to-end, permitiendo una percepción más completa de la entonación, ruidos de fondo y otros elementos auditivos sin sacrificar la expresividad.
El modelo ha establecido nuevos estándares en pruebas de evaluación multilingüe, de audio y visión, destacándose en la comprensión de idiomas menos resursados y en el reconocimiento de voz. Además, la eficiencia en la tokenización muestra avances significativos en el procesamiento de lenguajes diversos, optimizando la cantidad de datos procesados sin perder calidad.
Recursos multimedia extra disponibles en la fuente original
La seguridad se ha integrado en el diseño de GPT-4o, con nuevos sistemas de seguridad diseñados para las modalidades de voz. Se han realizado pruebas exhaustivas para garantizar que los riesgos asociados a las nuevas capacidades estén controlados, preparando el modelo para una interacción segura.
GPT-4o ya está disponible parcialmente en ChatGPT, con planes de expansión a otras modalidades como audio y video en colaboración con socios de confianza. Este modelo no solo es más accesible y económico, sino que también promete revolucionar las capacidades de interacción con IA en aplicaciones prácticas.