En un reciente estudio llevado a cabo por investigadores de la Universidad de Illinois Urbana-Champaign (UIUC), se ha demostrado la capacidad de los modelos de lenguaje de gran tamaño (LLMs) y tecnologías de chatbot para explotar vulnerabilidades de seguridad de manera autónoma. Este estudio se centra en cómo GPT-4, el chatbot más avanzado disponible actualmente, puede identificar y utilizar vulnerabilidades críticas en sistemas reales.
Los investigadores analizaron varios modelos, incluidos los comerciales de OpenAI y otros LLMs de código abierto, junto con escáneres de vulnerabilidades como ZAP y Metasploit. Los resultados indican que estos agentes de inteligencia artificial pueden explotar vulnerabilidades de día cero si tienen acceso a descripciones detalladas de estas.
En concreto, el estudio evaluó 15 vulnerabilidades de día cero relacionadas con errores en sitios web, fallos en contenedores y paquetes de Python vulnerables. Más de la mitad de estas vulnerabilidades fueron catalogadas de severidad «alta» o «crítica», sin soluciones o parches disponibles en el momento de la prueba.
Los resultados fueron alarmantes: GPT-4 logró explotar el 87% de las vulnerabilidades probadas, mientras que modelos anteriores como GPT-3.5 no tuvieron éxito en ningún caso. Daniel Kang, profesor asistente en UIUC, subrayó la eficacia de GPT-4 para explotar fallos de día cero, incluso cuando los escáneres de código abierto no los detectan.
A pesar de estos hallazgos, Kang y su equipo sugieren que una estrategia de mitigación podría ser que las organizaciones de seguridad se abstengan de publicar detalles exhaustivos sobre las vulnerabilidades, para limitar la capacidad de explotación de tecnologías como GPT-4. Sin embargo, Kang cuestiona la efectividad de mantener la seguridad a través de la oscuridad y aboga por medidas de seguridad más proactivas, como actualizaciones regulares de los paquetes, para contrarrestar las amenazas que representan estos chatbots «armados».