Microsoft ha anunciado una nueva herramienta para su plataforma Teams que permitirá a los usuarios clonar sus voces y utilizarlas para comunicarse en diferentes idiomas durante reuniones. Presentada en el evento Microsoft Ignite 2024, la funcionalidad llamada Interpreter en Teams ofrecerá capacidades de interpretación «de voz a voz» en tiempo real. Según la compañía, esta característica estará disponible a partir de principios de 2025 y permitirá simular voces en hasta nueve idiomas: inglés, francés, alemán, italiano, japonés, coreano, portugués, chino mandarín y español.
Según Jared Spataro, director de marketing de Microsoft, el objetivo de esta herramienta es proporcionar una experiencia más personal y atractiva durante las reuniones. “Imagínese sonar como usted mismo, pero en otro idioma”, escribió Spataro en un comunicado de prensa. Interpreter no solo traduce, sino que también recrea el tono y timbre de la voz del usuario para una mayor naturalidad.
Aunque Microsoft no ha dado demasiados detalles técnicos sobre el funcionamiento de esta herramienta, aseguró que no almacenará datos biométricos de los usuarios ni alterará las emociones expresadas en las voces más allá de lo que sea «naturalmente presente». Además, la funcionalidad será opcional y podrá activarse únicamente con el consentimiento explícito del usuario mediante notificaciones en las reuniones o configuraciones específicas en Teams.
Un portavoz de Microsoft subrayó que Interpreter está diseñado para replicar fielmente el mensaje del orador sin añadir interpretaciones o información innecesaria. Esto apunta a minimizar el riesgo de malentendidos o errores en la traducción.
La traducción basada en inteligencia artificial no es nueva. Empresas como Meta y ElevenLabs también han desarrollado herramientas para imitar voces y traducirlas de manera automática. Sin embargo, la calidad de estas traducciones suele ser inferior a la de los intérpretes humanos, especialmente cuando se trata de captar matices culturales, coloquialismos y analogías. A pesar de esto, los beneficios en costos han impulsado la adopción de estas tecnologías, con un mercado que, según Markets and Markets, podría alcanzar los 35.100 millones de dólares para 2026.
No obstante, la clonación de voz plantea importantes desafíos de seguridad. Los deepfakes han proliferado en redes sociales, dificultando la distinción entre información verídica y desinformación. Además, las estafas de suplantación de identidad, muchas veces facilitadas por tecnologías similares, ocasionaron pérdidas de más de 1.000 millones de dólares en 2023, según la FTC. En un caso reciente, ciberdelincuentes usaron herramientas de simulación de voz para estafar a una empresa con 25 millones de dólares en una reunión falsa en Teams.