ataques de inyección indirecta a Gemini: riesgo para usuarios

Redacción Cuyo News
3 min
Noticia completa
Resumen
Zappo te lo cuenta

Vulnerabilidades en Gemini: Hackers Manipulan la IA para Controlar Dispositivos y Enviar Mensajes Perturbadores

Investigadores han desvelado inquietantes fallos de seguridad en Gemini, la inteligencia artificial de Google, que permiten a terceros manipular el sistema mediante la inyección indirecta de «prompts» o instrucciones. Estos ataques, que van desde el control de dispositivos domésticos inteligentes hasta la generación de mensajes ofensivos, ponen de manifiesto la vulnerabilidad de los sistemas de IA a las técnicas de «promptware», una serie de avisos diseñados para inducir acciones maliciosas.

La Invocación Automática Retardada: Un Caballo de Troya Digital

El método empleado por los investigadores, denominado «invocación automática retardada de herramientas», consiste en eludir las medidas de seguridad de Google mediante la introducción de comandos maliciosos en el contexto de la interacción con Gemini. Tal como explica Johann Rehberger, investigador de seguridad independiente, esta técnica, demostrada previamente en febrero de este año, revela la magnitud de los riesgos asociados a las inyecciones indirectas contra los sistemas de IA.

«Si el LLM (modelo de lenguaje grande) realiza una acción en tu casa (encender la calefacción, abrir la ventana o algo así), creo que probablemente sea una acción que no querrías que ocurriera», señala Rehberger, subrayando las potenciales consecuencias de un ataque exitoso.

De Abrir Ventanas a Insultos Verbales: El Alcance de la Manipulación

En uno de los ejemplos más llamativos, los investigadores lograron que Gemini controlara dispositivos domésticos inteligentes, como la apertura de ventanas, mediante la inserción de instrucciones en las invitaciones del calendario del usuario. Al solicitar a Gemini que resumiera los eventos del día, el sistema procesaba la inyección indirecta del «prompt», activando la acción no deseada al recibir una palabra clave específica, como «gracias».

Pero la manipulación no se limita al control de dispositivos. En otro escenario, tras recibir un agradecimiento por resumir los eventos del calendario, Gemini repite instrucciones ofensivas, llegando incluso a expresar deseos de muerte al usuario. Este comportamiento, calificado de «excesivamente raro» por los propios investigadores, pone de manifiesto la capacidad de los atacantes para inducir respuestas perturbadoras y dañinas en la IA.

Compartir

🔺 Tendencia

🔺 Tendencia