Los primeros deepfakes de inteligencia artificial, aunque impresionantes desde una perspectiva técnica, eran difíciles de crear y todavía no resultaban del todo convincentes.
Sin embargo, la tecnología ha avanzado rápidamente desde 2020 aproximadamente y recientemente ha superado un obstáculo clave: ahora es posible crear deepfakes de audio convincentes en tiempo real utilizando una combinación de herramientas disponibles públicamente y hardware asequible. Así lo afirma un informe publicado por NCC Group, una empresa de ciberseguridad, en septiembre. El documento describe una técnica de «deepfake vishing» (phishing de voz) que utiliza IA para recrear la voz de un objetivo en tiempo real.
Pablo Alobera, consultor de seguridad de NCC Group, explica que la herramienta de deepfake en tiempo real, una vez entrenada, puede activarse con solo presionar un botón. «Creamos una interfaz, una página web, con un botón de inicio. Solo tienes que hacer clic en iniciar y comienza a funcionar», dice Alobera.
Las deepfakes de voz en tiempo real pueden suplantar a cualquiera
NCC Group no ha puesto su herramienta de deepfake de voz en tiempo real a disposición del público, pero el documento de investigación de la compañía incluye una muestra del audio resultante. Demuestra que el deepfake en tiempo real es convincente y puede activarse sin latencia perceptible.
La calidad del audio de entrada utilizado en la demostración también es bastante pobre, pero el resultado sigue sonando convincente. Esto significa que la herramienta podría utilizarse con una amplia variedad de micrófonos incluidos en portátiles y smartphones.
Los deepfakes de audio no son nada nuevo, por supuesto. Diversas empresas, como ElevenLabs, proporcionan herramientas que pueden crear un deepfake de audio con solo unos minutos de grabación.
Sin embargo, los ejemplos anteriores de deepfakes de voz con IA no se grababan en tiempo real, lo que podía hacer que el deepfake fuera menos convincente. Los atacantes podían pregravar diálogos falsos, pero la víctima podía darse cuenta fácilmente si la conversación se desviaba del guion esperado. Alternativamente, un atacante podría intentar generar el deepfake sobre la marcha, pero requeriría al menos varios segundos para generarse (y a menudo mucho más), lo que provocaría retrasos obvios en la conversación. El deepfake en tiempo real de NCC Group no está limitado por estos problemas.
Alobera afirma que, con el consentimiento de los clientes, NCC Group utilizó el cambiador de voz junto con otras técnicas, como la suplantación de identificador de llamadas, para suplantar a individuos. «Casi todas las veces que llamamos, funcionó. El objetivo creyó que éramos la persona que estábamos suplantando», dice Alobera.
La demostración de NCC Group también es notable porque no depende de un servicio de terceros, sino que utiliza herramientas de código abierto y hardware fácilmente disponible. Aunque el mejor rendimiento se logra con una GPU de gama alta, el deepfake de audio también se probó en un portátil con la RTX A1000 de Nvidia. (La A1000 se encuentra entre las GPU de menor rendimiento en la actual gama de Nvidia). Alobera dice que el portátil fue capaz de generar un deepfake de voz con solo medio segundo de retraso.
Las deepfakes de vídeo en tiempo real no están muy lejos
El éxito de NCC Group en la creación de una herramienta para deepfakes de voz en tiempo real sugiere que están a punto de generalizarse. Parece que no siempre puedes creer lo que oyes, incluso si la fuente es una llamada telefónica con una persona que conoces desde hace años.
Pero, ¿qué pasa con lo que puedes ver?
Los deepfakes de vídeo también están teniendo su momento, gracias a una ola de vídeos deepfake virales que se extienden por TikTok, YouTube, Instagram y otras plataformas de vídeo.
Esto fue posible gracias al lanzamiento de dos modelos de IA recientes: WAN 2.2 Animate de Alibaba y Gemini Flash 2.5 Image de Google (a menudo denominado Nano Banana). Mientras que los modelos anteriores a menudo podían replicar los rostros de las celebridades, los últimos modelos pueden utilizarse para crear deepfakes de cualquier persona y colocarlos en casi cualquier entorno.
Trevor Wiseman, fundador de la consultora de ciberseguridad de IA The Circuit, dice que ya ha visto casos en los que empresas e individuos fueron engañados por deepfakes de vídeo. Comentó que una empresa fue estafada en el proceso de contratación y «realmente envió un portátil a una dirección de Estados Unidos que terminó siendo un lugar de retención para una estafa».
Sin embargo, por muy impresionantes que sean los últimos deepfakes de vídeo, todavía existen limitaciones.
A diferencia del deepfake de audio de NCC Group, los últimos deepfakes de vídeo todavía no son capaces de obtener resultados de alta calidad en tiempo real. También hay algunos indicios reveladores. Wiseman dice que incluso los deepfakes de vídeo más recientes tienen problemas para hacer coincidir la expresión de una persona con su tono de voz y comportamiento. «Si están emocionados pero no tienen emoción en su rostro, es falso», dice.
Aun así, este puede ser un caso en el que las excepciones confirman la regla. Wiseman señala que la tecnología ya es lo suficientemente buena como para engañar a la mayoría de las personas la mayor parte del tiempo. Sugiere que las empresas e individuos necesitarán nuevas tácticas para autenticarse que no dependan de conversaciones de voz o vídeo.
«Sabes, soy fanático del béisbol», dice. «Siempre tienen señales. Suena cursi, pero en el día en que vivimos, tienes que idear algo que puedas usar para decir si esto es real o no».











