La comunidad científica y tecnológica se encuentra inquieta ante la llegada sorpresiva de este enigmático modelo de inteligencia artificial. El ‘gpt2-chatbot’ ha generado un debate intenso en torno a sus orígenes, capacidades y posibles implicaciones para el futuro de la IA.
En la LMSYS Chatbot Arena se ha avistado un enigmático chatbot denominado «gpt2-chatbot», que ha generado una oleada de especulaciones en redes sociales. Algunos sugieren que podría tratarse de una versión de prueba de los modelos GPT-4.5 o GPT-5 de OpenAI, aunque esta nueva incorporación sólo permite un uso limitado, con un máximo de ocho consultas diarias en el modo «arena lado a lado».
Aunque ha inspirado numerosos rumores, incluyendo la posibilidad de ser una versión avanzada y secreta del GPT-2 de 2019, las pruebas iniciales han mostrado resultados mixtos. Comparado con GPT-4 Turbo, el «gpt2-chatbot» ha revelado fallos y un manejo del lenguaje algo torpe. Un claro ejemplo fue su incapacidad para superar satisfactoriamente el «test de magenta», dejando entrever que probablemente no se trate del avanzado GPT-5.
Pese a la falta de confirmación oficial por parte de OpenAI, y aunque el CEO de la compañía, Sam Altman, ha mostrado cierta predilección por el nombre «gpt2», aún se desconoce la verdadera naturaleza del modelo. Las pruebas realizadas no parecen mostrar un salto significativo en capacidades en comparación con GPT-4, llevando a algunos expertos a manifestar su decepción si este fuera el GPT-4.5.
El lanzamiento no anunciado y la escasez de información confiable han generado frustración entre los expertos, quienes critican la metodología opaca y no científica con la que se están evaluando y liberando algunos modelos de LLM. Esta situación refleja un problema más amplio en el campo de la investigación de modelos de lenguaje, donde se depende demasiado de impresiones subjetivas más que de evaluaciones rigurosas.
La política de LMSYS de permitir pruebas anónimas de modelos no lanzados oficialmente también ha sido objeto de críticas, aunque reiteran que su política es trabajar junto a desarrolladores de modelos para pruebas comunitarias, sin incluir estos modelos en clasificaciones oficiales hasta que sean lanzados públicamente.