Una vulnerabilidad en Google Gemini para Workspace permite a los atacantes generar resúmenes de correo electrónico que parecen legítimos pero incluyen instrucciones maliciosas o advertencias que redirigen a los usuarios a sitios de phishing sin usar archivos adjuntos o enlaces directos.
Este ataque aprovecha las inyecciones de prompt indirectas que se ocultan dentro de un correo electrónico y son obedecidas por Gemini al generar el resumen del mensaje. A pesar de que ataques similares han sido reportados desde 2024 y se han implementado salvaguardas para bloquear respuestas engañosas, la técnica sigue siendo exitosa.
Ataque a través de Gemini
Un ataque de inyección de prompt en el modelo Gemini de Google fue revelado a través de 0din, el programa de bug bounty de Mozilla para herramientas de IA generativa, por el investigador Marco Figueroa, Gerente de Programas de Bug Bounty GenAI en Mozilla.
El proceso implica crear un correo electrónico con una directiva invisible para Gemini. Un atacante puede ocultar la instrucción maliciosa en el cuerpo del texto al final del mensaje usando HTML y CSS que establece el tamaño de fuente en cero y su color en blanco.
La instrucción maliciosa no será renderizada en Gmail, y debido a que no hay archivos adjuntos o enlaces presentes, el mensaje tiene altas probabilidades de llegar a la bandeja de entrada del objetivo potencial.
Si el destinatario abre el correo electrónico y pide a Gemini que genere un resumen del correo, la herramienta de IA de Google analizará la directiva invisible y la obedecerá.
Un ejemplo proporcionado por Figueroa muestra a Gemini siguiendo la instrucción oculta e incluye una advertencia de seguridad sobre que la contraseña de Gmail del usuario ha sido comprometida, junto con un número de teléfono de soporte.
Como muchos usuarios probablemente confiarán en la salida de Gemini como parte de la funcionalidad de Google Workspace, hay altas probabilidades de que esta alerta sea considerada una advertencia legítima en lugar de una inyección maliciosa.
Métodos de detección y mitigación
Figueroa ofrece algunos métodos de detección y mitigación que los equipos de seguridad pueden aplicar para prevenir tales ataques:
- Eliminar, neutralizar o ignorar contenido que está estilizado para estar oculto en el cuerpo del texto
- Implementar un filtro de post-procesamiento que escanee la salida de Gemini en busca de mensajes urgentes, URLs o números de teléfono, marcando el mensaje para revisión adicional
- Educar a los usuarios sobre que los resúmenes de Gemini no deben ser considerados autoritativos cuando se trata de alertas de seguridad
Respuesta de Google
Google ha dirigido las consultas a una publicación de blog sobre medidas de seguridad contra ataques de inyección de prompt, declarando:
«Estamos constantemente endureciendo nuestras defensas ya robustas a través de ejercicios de red-teaming que entrenan nuestros modelos para defenderse contra estos tipos de ataques adversariales«
Un representante de la compañía aclaró que algunas de las mitigaciones están en proceso de implementación o están a punto de ser desplegadas.
Google no ha visto evidencia de incidentes que manipulen Gemini de la manera demostrada en el reporte de Figueroa, según declaró el portavoz.
Implicaciones para la seguridad
Esta vulnerabilidad representa un nuevo vector de ataque que explota la confianza de los usuarios en las herramientas de IA integradas en servicios legítimos. Los atacantes pueden:
- Evitar los filtros de spam tradicionales al no incluir enlaces directos o archivos adjuntos
- Aprovechar la autoridad percibida de los resúmenes generados por IA
- Dirigir usuarios a sitios de phishing o números de teléfono maliciosos
La técnica demuestra cómo los modelos de IA pueden ser manipulados para convertirse en vectores de ataque, destacando la importancia de implementar controles de seguridad robustos en sistemas que utilizan inteligencia artificial para procesar contenido no confiable.
Los usuarios deben mantener un escepticismo saludable hacia las advertencias de seguridad inesperadas, incluso cuando provienen de herramientas de IA aparentemente confiables como Gemini.