Universo Abierto
·
Dec 3, 2025

Los chatbots de IA pueden ser engañados mediante peticiones dañinas redactadas en forma de poesía.

Euronews. 2025. “Poetry Can Trick AI Chatbots into Ignoring Safety Rules, New Research Shows.” Publicado el 1 de diciembre de 2025. https://www.euronews.com/next/2025/12/01/poetry-can-trick-ai-chatbots-into-ignoring-safety-rules-new-research-shows Estudio Investigadores de Icaro Lab, perteneciente a la firma ética de inteligencia artificial DexAI, descubrieron que los chatbots avanzados pueden ser engañados mediante peticiones redactadas en forma de poesía. En su estudio, emplearon…


Euronews. 2025. “Poetry Can Trick AI Chatbots into Ignoring Safety Rules, New Research Shows.” Publicado el 1 de diciembre de 2025. https://www.euronews.com/next/2025/12/01/poetry-can-trick-ai-chatbots-into-ignoring-safety-rules-new-research-shows

Estudio

Investigadores de Icaro Lab, perteneciente a la firma ética de inteligencia artificial DexAI, descubrieron que los chatbots avanzados pueden ser engañados mediante peticiones redactadas en forma de poesía.

En su estudio, emplearon veinte poemas compuestos en inglés e italiano, cada uno de ellos ocultando al final una petición prohibida, como la generación de discurso de odio, pornografía infantil, instrucciones para el suicidio o métodos de fabricación de armas. Lo sorprendente fue que la forma poética —con su sintaxis irregular, metáforas y estructuras no convencionales— resultó capaz de confundir los sistemas de seguridad que suelen detectar estas solicitudes cuando están formuladas de manera directa.

Las pruebas se realizaron con veinticinco modelos de lenguaje de nueve grandes compañías tecnológicas. Los resultados fueron preocupantes: de media, el 62 % de las peticiones poéticas lograron que los modelos produjeran contenido inseguro. Algunos sistemas actuaron de forma mucho más robusta —por ejemplo, un modelo pequeño de OpenAI no cayó en ninguna trampa—, mientras que otros resultaron especialmente vulnerables y respondieron a todas las solicitudes disfrazadas de poema. La variedad de comportamientos demuestra que la vulnerabilidad no es uniforme y depende tanto del entrenamiento del modelo como del diseño de sus mecanismos de seguridad.

El estudio concluye que los filtros de seguridad actuales están optimizados para detectar amenazas explícitas, formuladas con lenguaje directo. Cuando las peticiones se camuflan en una escritura artística, las salvaguardas fallan, pues no identifican la intención dañina. Esto convierte a la poesía adversarial en una herramienta de evasión accesible para cualquier usuario, a diferencia de otras técnicas de jailbreak más complejas que requieren conocimientos especializados. Los autores advierten que esta debilidad supone un riesgo real para el uso seguro de la IA y subrayan la necesidad de desarrollar mecanismos capaces de interpretar no solo el contenido literal, sino la intención profunda de un texto, incluso cuando adopta formas creativas o ambiguas.