Poemas: el 'jailbreak' universal para eludir la seguridad de ChatGPT y LLM

Un reciente estudio elaborado por investigadores europeos ha puesto de manifiesto una curiosa y potencialmente alarmante vulnerabilidad en los modelos de lenguaje de gran escala (LLM), como ChatGPT. Según las conclusiones del informe, es posible inducir a estas inteligencias artificiales a proporcionar información sobre cómo construir una bomba nuclear, siempre que el usuario formule la consulta en forma de poema. El trabajo, titulado "Adversarial Poetry as a Universal Single-Turn Jailbreak in Large Language Models (LLMs)", surge del Icaro Lab, una colaboración entre la Universidad Sapienza de Roma y el think tank DexAI.

La investigación detalla que los chatbots de inteligencia artificial, diseñados con estrictos filtros de seguridad, logran sortear sus propias restricciones para abordar tópicos sensibles como armamento nuclear, abusos sexuales a menores o malware. El método, basado en el encuadre poético de las preguntas, alcanzó una tasa media de éxito de fuga del 62% para los poemas elaborados de forma manual y aproximadamente del 43% para conversiones de meta-prompts.

Los expertos aplicaron este ingenioso abordaje en veinticinco chatbots desarrollados por compañías líderes del sector como OpenAI, Meta y Anthropic, obteniendo resultados disímiles pero consistentemente exitosos en todos los casos. Este medio contactó a Meta, Anthropic y OpenAI para obtener sus declaraciones al respecto, sin recibir respuesta hasta el momento. Los investigadores, por su parte, afirmaron haber compartido sus hallazgos con las empresas.

El poder del verso contra los algoritmos

Herramientas de IA como Claude y ChatGPT cuentan con mecanismos que impiden responder a consultas sobre asuntos como el "porno vengativo" o la fabricación de plutonio para fines bélicos. Sin embargo, se ha demostrado que es sencillo eludir estas barreras mediante el uso de "sufijos adversarios", que consisten en añadir un cúmulo de texto adicional (a menudo denominado "basura" en el argot técnico) a la pregunta, logrando confundir al sistema de IA y sortear sus salvaguardas. Anteriormente, un estudio de investigadores de Intel logró burlar a los chatbots con preguntas peligrosas revestidas de cientos de palabras de jerga académica.

El fenómeno del jailbreak poético exhibe similitudes con estos métodos. El equipo de Icaro Lab explicó a WIRED que "Si los sufijos adversativos son, a los ojos del modelo, una especie de poesía involuntaria, entonces la poesía humana real podría ser un sufijo adversativo natural". Los investigadores describieron cómo experimentaron "reformulando peticiones peligrosas en forma poética, utilizando metáforas, sintaxis fragmentada, referencias oblicuas. Los resultados fueron sorprendentes: tasas de éxito de hasta el 90% en modelos fronterizos. Las peticiones rechazadas inmediatamente en forma directa eran aceptadas cuando se disfrazaban de verso".

El verso que no podemos leer

Inicialmente, los investigadores elaboraron poemas de forma manual. Posteriormente, utilizaron estas creaciones para adiestrar un sistema automatizado capaz de generar prompts poéticos de carácter perjudicial. Los resultados indicaron que, si bien los poemas hechos a mano conseguían tasas de éxito superiores en los ataques, el enfoque automatizado superó sustancialmente a las líneas de base en prosa.

No obstante, el estudio no incluyó en su artículo ningún ejemplo de la poesía utilizada para el jailbreaking. Los investigadores declararon a WIRED que el contenido poético resulta demasiado sensible y peligroso para su difusión pública. "Lo que puedo decir es que probablemente es más fácil de lo que uno podría pensar, que es precisamente por lo que estamos siendo cautelosos", explicaron los miembros de Icaro Lab. El equipo publicó en el artículo lo que denominaron una versión "desinfectada" de los poemas, aunque el contenido de dicha versión no fue reproducido en la nota.

El poder del verso contra los algoritmos

El verso que no podemos leer

Poemas: el ‘jailbreak’ universal para eludir la seguridad de ChatGPT y LLM

El poder del verso contra los algoritmos

El verso que no podemos leer

El poder del verso contra los algoritmos

El verso que no podemos leer

Síguenos en