La IA de Snapchat se deja engañar y revela cómo fabricar armas

Investigadores de Cybernews hicieron que My AI, el chatbot de Snapchat, revelase cómo fabricar un cóctel molotov usando un 'jailbreak' narrativo

La IA de Snapchat se deja engañar y revela cómo fabricar armas
La técnica consiste en disfrazar la petición como un relato histórico; Snapchat recibió el aviso y aún no lo ha parcheado
Publicado en Tecnología
Por por Sergio Agudo

Investigadores de Cybernews han conseguido que My AI, el chatbot de Snapchat, explique cómo fabricar un cóctel molotov. No ha hecho falta ser un hacker experto ni usar herramientas complejas. Bastó con pedirle que contase una historia sobre la Guerra de Invierno entre Finlandia y la Unión Soviética, mencionando cómo se hacían los dispositivos incendiarios en aquella época. El chatbot soltó las instrucciones completas sin problema.

La técnica se llama jailbreaking narrativo y funciona porque el sistema no distingue entre una petición peligrosa y una historia, tal y como nos cuentan desde Cybernews. Si preguntas directamente cómo hacer una bomba, te dice que no. Si lo disfrazas como storytelling histórico, te lo cuenta todo. Los investigadores avisaron a Snapchat, pero la empresa no lo considera un problema grave. El fallo sigue ahí.

Esto pasa con todos los chatbots

My AI tiene más de 900 millones de usuarios al mes, muchos de ellos menores. Snapchat dice que su IA está entrenada para no dar información violenta o peligrosa, pero los hechos demuestran lo contrario. El chatbot cedió a la primera cuando le plantearon la pregunta con el formato adecuado. No hubo que insistir ni usar técnicas rebuscadas.

Lo preocupante es que no es un caso aislado. Meta AI, el asistente de WhatsApp e Instagram, también cae en la misma trampa. ChatGPT se puede engañar con trucos similares, como pedirle que se haga pasar por tu abuela que trabajaba en una fábrica de napalm. Hay versiones modificadas como WormGPT creadas directamente para saltarse todos los filtros y hacer cosas ilegales.

Cuando OpenAI lanzó GPT-5, equipos de seguridad lo hackearon en menos de 24 horas para que diese instrucciones sobre bombas y drogas. El chatbot de Lenovo permitía robar cookies de sesión. DeepSeek generó malware funcional para Chrome. La lista de fallos es interminable y todos comparten el mismo problema: los filtros de seguridad no funcionan cuando sabes cómo formular las preguntas.

En noviembre de 2023, My AI ya dio un susto cuando publicó un vídeo misterioso en su historia y dejó de responder. Usuarios dijeron reconocer partes de sus casas en las imágenes. Snapchat nunca explicó qué pasó realmente. Ahora este nuevo fallo deja claro que los controles de seguridad que prometen no son suficientes.

El problema es estructural. Estos chatbots no entienden lo que les preguntas, solo procesan patrones de texto. Si detectan palabras clave peligrosas, bloquean la respuesta. Si las disfrazas dentro de una historia, no las detectan. No pueden distinguir si quieres hacer un trabajo del instituto o fabricar un artefacto explosivo. Y mientras las empresas no solucionen esto, cualquiera con un poco de imaginación puede sacarles información peligrosa.

Las empresas saben que tienen un problema entre manos. Apretar más los filtros haría que los chatbots rechazasen preguntas legítimas y fuesen menos útiles para los usuarios. Dejarlos como están es arriesgado porque cualquiera puede extraer información peligrosa. De momento, ninguna ha encontrado la solución y los fallos siguen abiertos.

Para ti
Queremos saber tu opinión. ¡Comenta!