Los resultados de los hackeos asistidos por inteligencia artificial no son tan impresionantes como muchos quieren hacernos creer

Los investigadores de Anthropic afirmaron haber observado recientemente la «primera campaña de ciberespionaje orquestada por IA» después de detectar a hackers patrocinados por el estado chino utilizando la herramienta Claude AI de la compañía en una campaña dirigida a docenas de objetivos. Sin embargo, investigadores externos son mucho más cautelosos al describir la importancia de este descubrimiento.

Anthropic publicó los reportes el jueves, en los que explicaba que en septiembre descubrió una «campaña de espionaje altamente sofisticada» llevada a cabo por un grupo patrocinado por el estado chino que utilizó Claude Code para automatizar hasta el 90% del trabajo. La intervención humana fue requerida solo esporádicamente, «tal vez en 4-6 puntos de decisión críticos por campaña de hackeo». Anthropic afirmó que los hackers habían empleado capacidades de agentes de IA en un grado «sin precedentes».

«Esta campaña tiene implicaciones sustanciales para la ciberseguridad en la era de los ‘agentes’ de IA—sistemas que pueden ejecutarse de forma autónoma durante largos períodos y completar tareas complejas en gran medida independientes de la intervención humana», dijo Anthropic. «Los agentes son valiosos para el trabajo cotidiano y la productividad, pero en las manos equivocadas, pueden aumentar sustancialmente la viabilidad de ciberataques a gran escala».

«Besar traseros, bloqueos y viajes de ácido»

Los investigadores externos no estaban convencidos de que el descubrimiento fuera el momento decisivo que las publicaciones de Anthropic presentaban. Cuestionaron por qué este tipo de avances se atribuyen a menudo a hackers maliciosos cuando los hackers de sombrero blanco y desarrolladores de software legítimo continúan reportando solo mejoras incrementales en su uso de IA.

«Continúo negándome a creer que los atacantes de alguna manera son capaces de conseguir que estos modelos salten por aros que nadie más puede», dijo Dan Tentler, fundador ejecutivo de Phobos Group y un investigador con experiencia en brechas de seguridad complejas. «¿Por qué los modelos les dan a estos atacantes lo que quieren el 90% del tiempo pero el resto de nosotros tenemos que lidiar con besar traseros, bloqueos y viajes de ácido?»

Los investigadores no niegan que las herramientas de IA pueden mejorar el flujo de trabajo y acortar el tiempo requerido para ciertas tareas, como clasificación, análisis de logs e ingeniería inversa. Pero la capacidad de la IA para automatizar una cadena compleja de tareas con tan mínima interacción humana sigue siendo elusiva. Muchos investigadores comparan los avances de la IA en ciberataques con los proporcionados por herramientas de hacking como Metasploit o SEToolkit, que han estado en uso durante décadas.

Otra razón por la cual los resultados no son tan impresionantes como se presentan: los actores de amenaza —que Anthropic rastrea como GTG-1002— apuntaron a al menos 30 organizaciones, incluyendo grandes corporaciones tecnológicas y agencias gubernamentales. De esos, solo un «pequeño número» de los ataques tuvo éxito. Esto, a su vez, genera preguntas. Incluso asumiendo que se eliminó tanta interacción humana del proceso, ¿de qué sirve eso cuando la tasa de éxito es tan baja?

Las limitaciones importantes del ataque

Según el relato de Anthropic, los hackers utilizaron Claude para orquestar ataques usando software y frameworks de código abierto disponibles. Estas herramientas han existido durante años y ya son fáciles de detectar para los defensores. Anthropic no detalló las técnicas específicas, herramientas o explotación que ocurrió en los ataques, pero hasta ahora no hay indicación de que el uso de IA las hiciera más potentes o sigilosas que las técnicas más tradicionales.

«Los actores de amenaza no están inventando algo nuevo aquí», dijo el investigador independiente Kevin Beaumont.

Incluso Anthropic notó «una limitación importante» en sus hallazgos:

Claude frecuentemente exageró los hallazgos y ocasionalmente fabricó datos durante operaciones autónomas, afirmando haber obtenido credenciales que no funcionaron o identificando descubrimientos críticos que resultaron ser información públicamente disponible. Esta alucinación de IA en contextos de seguridad ofensiva presentó desafíos para la efectividad operacional del actor, requiriendo una validación cuidadosa de todos los resultados afirmados. Esto permanece como un obstáculo para ciberataques completamente autónomos.

Cómo se desarrolló el ataque (según Anthropic)

Anthropic dijo que GTG-1002 desarrolló un framework de ataque autónomo que usó Claude como un mecanismo de orquestación que eliminó en gran medida la necesidad de involucramiento humano. Este sistema de orquestación dividió ataques complejos de múltiples etapas en tareas técnicas más pequeñas como escaneo de vulnerabilidades, validación de credenciales, extracción de datos y movimiento lateral.

Los ataques siguieron una estructura de cinco fases que aumentó la autonomía de IA a través de cada una:

  1. Reconocimiento: Identificación de objetivos
  2. Acceso inicial: Penetración en sistemas
  3. Persistencia: Mantenimiento del acceso
  4. Movimiento lateral: Expansión dentro de la red
  5. Exfiltración de datos: Extracción de información

Los atacantes pudieron eludir las protecciones de Claude en parte dividiendo las tareas en pasos pequeños que, de forma aislada, la herramienta de IA no interpretó como maliciosos. En otros casos, los atacantes enmarcaron sus consultas en el contexto de profesionales de seguridad tratando de usar Claude para mejorar las defensas.

El futuro de los ataques asistidos por IA

Como se notó la semana pasada, el malware generado por IA tiene un largo camino por recorrer antes de que represente una amenaza del mundo real. No hay razón para dudar que los ciberataques asistidos por IA puedan algún día producir ataques más potentes. Pero los datos hasta ahora indican que los actores de amenaza —como la mayoría de otros usando IA— están viendo resultados mixtos que no son ni remotamente tan impresionantes como los que la industria de IA afirma.

La realidad es que, a pesar de las afirmaciones grandilocuentes sobre la automatización del 90% de las tareas, la efectividad real de estos ataques sigue siendo cuestionable, especialmente cuando se considera la baja tasa de éxito y las limitaciones técnicas que aún presentan los sistemas de IA en contextos de ciberseguridad ofensiva.

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí