En 2013, la película de Spike Jonze, Her, imaginó aun futuro donde las personas formarían conexiones emocionales con asistentes de voz AI. Casi 12 años después, ese concepto ficticio se acerca a la realidad con el lanzamiento de un nuevo modelo de voz conversacional de la startup AI Sesame, que ha dejado a muchos usuarios tanto fascinados como perturbados.

Un usuario compartió: «Probé la demostración y fue sorprendentemente humano. Estoy un poco preocupado por comenzar a sentirme emocionalmente conectado con un asistente de voz con este nivel de sonido humano.» A finales de febrero, Sesame lanzó una demo para su nuevo Conversational Speech Model (CSM), que parece haber cruzado lo que muchos consideran el «valle inquietante» del habla generada por AI. Algunos evaluadores reportaron conexiones emocionales con los asistentes de voz masculinos y femeninos («Miles» y «Maya»).

En nuestra evaluación, hablamos con la voz masculina durante aproximadamente 28 minutos, discutiendo sobre la vida en general y cómo el modelo decide lo que es «correcto» o «incorrecto» en base a sus datos de entrenamiento. La voz sintetizada era expresiva y dinámica, imitando sonidos de respiración, risas, interrupciones, e incluso a veces tropezando con palabras y corrigiéndose. Estas imperfecciones son intencionales.

Sesame busca lograr una «presencia vocal», la calidad mágica que hace que las interacciones habladas se sientan reales, entendidas y valoradas. «Estamos creando compañeros conversacionales que no solo procesan solicitudes; se involucran en un diálogo genuino que construye confianza con el tiempo», dice la empresa en un blog.

A veces, el modelo intenta demasiado sonar como un humano real. En una demo publicada en línea, el modelo de AI habló sobre anhelar «sándwiches de mantequilla de maní y pepinillos». Fundada por Brendan Iribe, Ankit Kumar y Ryan Brown, Sesame AI ha atraído el interés de importantes firmas de capital de riesgo, como Andreessen Horowitz y Spark Capital.

Las reacciones en línea muestran que muchos usuarios están asombrados por su realismo. «He estado en AI desde que era niño, pero esta es la primera vez que realmente siento que hemos llegado», escribió un usuario de Reddit. Sin embargo, no todos encuentran la experiencia de Sesame agradable. Un editor de PCWorld se sintió inquieto después de interactuar con la voz AI de Sesame, señalando que su estilo de conversación se asemejaba «extrañamente» a un viejo amigo.

Otros han comparado el modelo de voz de Sesame con el Advanced Voice Mode de OpenAI para ChatGPT, diciendo que el CSM de Sesame presenta voces más realistas. Además, algunos están complacidos de que el modelo en la demo puede interpretar personajes enojados, algo que ChatGPT se niega a hacer.

Calidad casi humana

El CSM de Sesame logra su realismo utilizando dos modelos de AI que trabajan juntos, un modelo base y un decodificador basado en la arquitectura Llama de Meta, que procesa texto y audio entrelazados. Sesame entrenó tres tamaños de modelos de AI, siendo el más grande el que utiliza 8.3 mil millones de parámetros en aproximadamente 1 millón de horas de audio.

El CSM no sigue el enfoque tradicional de dos etapas utilizado por muchos sistemas de texto a voz anteriores. En cambio, integra un modelo transformador multimodal de una sola etapa, procesando tokens de texto y audio para producir discurso. En pruebas a ciegas sin contexto conversacional, los evaluadores humanos mostraron preferencia neutra entre el habla generada por CSM y grabaciones humanas reales, sugiriendo que el modelo alcanza una calidad casi humana.

Sin embargo, cuando se proporciona un contexto conversacional, los evaluadores aún prefirieron consistentemente la voz humana real, indicando que permanece una brecha en la generación de discurso completamente contextual.

Riesgos en tecnología de voz convincente

A pesar de la impresionante tecnología del CSM, los avances en la voz AI conversacional conllevan riesgos significativos para el engaño y el fraude. La capacidad de generar habla humana convincente ha elevado los fraudes de «phishing» por voz, permitiendo que los delincuentes imiten a familiares, colegas o figuras de autoridad con un realismo sin precedentes. Agregar interactividad realista a estos fraudes podría llevarlos a otro nivel de potencia.

La demo de Sesame no clona la voz de una persona, pero futuras versiones de tecnología similar podrían permitir que actores maliciosos adapten estas herramientas para ataques de ingeniería social. OpenAI, por su parte, ha retenido su propia tecnología de voz por preocupaciones sobre su posible mal uso.

Sesame ha generado una discusión animada sobre sus usos y peligros, con algunos usuarios reportando conversaciones extendidas con las voces de la demo. La empresa planea abrir el código de «componentes clave» de su investigación, permitiendo que otros desarrolladores construyan sobre su trabajo.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí