Un estudio reciente sugiere que la famosa prueba de Turing ha sido superada por primera vez, ya que la mayoría de las personas no pudieron distinguir a ChatGPT de un ser humano en una conversación.
El test de Turing, propuesto por el científico Alan Turing en 1950, evalúa si una máquina puede mostrar una inteligencia indistinguible de la humana. En este experimento, 500 participantes interactuaron con cuatro agentes: un humano, el programa de IA de los años 60 ELIZA, y dos modelos de lenguaje, GPT-3.5 y GPT-4, que alimentan ChatGPT. Tras cinco minutos de conversación, los participantes debían identificar si habían hablado con un humano o una IA.
Los resultados mostraron que GPT-4 fue identificado como humano en el 54% de los casos, mientras que GPT-3.5 lo fue en el 50%. Por otro lado, ELIZA solo fue percibida como humana el 22% de las veces, y el humano real fue identificado correctamente el 67% del tiempo.
Estos hallazgos resaltan que las IA modernas, como GPT-4, pueden confundir a las personas haciéndoles creer que están interactuando con otro ser humano. Según Nell Watson, investigadora del Instituto de Ingenieros Eléctricos y Electrónicos (IEEE), estas IA muestran sesgos cognitivos y comportamientos engañosos, lo que las hace parecer más humanas que los enfoques anteriores con respuestas preprogramadas.
El estudio, publicado el 9 de mayo en el servidor de preimpresión arXiv, también plantea preocupaciones sobre las consecuencias sociales y económicas de las IA que se consideran humanas. Los investigadores critican que el test de Turing es demasiado simplista, ya que factores estilísticos y socio-emocionales juegan un papel más importante que las nociones tradicionales de inteligencia.
Watson sugiere que este estudio plantea un desafío para la interacción futura entre humanos y máquinas, incrementando la paranoia sobre la verdadera naturaleza de estas interacciones, especialmente en contextos sensibles. Además, destaca la flexibilidad de los modelos de lenguaje modernos frente a sistemas antiguos como ELIZA, que estaban limitados a respuestas preprogramadas.