Basta con 250 documentos corruptos para hackear modelos de IA como ChatGPT o Claude
Un equipo de Anthropic y el Alan Turing Institute demuestra que los LLM pueden ser manipulados con apenas unos cientos de ejemplos maliciosos.

Una nueva investigación ha puesto en entredicho la seguridad de los modelos de inteligencia artificial más avanzados del mundo. Un estudio conjunto de Anthropic, el UK AI Security Institute y el Alan Turing Institute revela que los modelos de lenguaje de gran tamaño (LLM), como los que impulsan ChatGPT, Claude o Gemini, pueden desarrollar vulnerabilidades internas si se incluyen apenas 250 documentos manipulados dentro de sus datos de entrenamiento. En otras palabras, alguien podría alterar la forma en que una IA responde a determinados estímulos simplemente colando un puñado de archivos maliciosos entre millones de textos legítimos.
Cómo unos pocos documentos pueden “envenenar” a un modelo de IA
Los investigadores entrenaron modelos que iban desde 600 millones hasta 13.000 millones de parámetros, cada uno con conjuntos de datos ajustados a su tamaño. En todos los casos, descubrieron que bastaban unos pocos cientos de documentos maliciosos para implantar un “backdoor” o puerta trasera: una instrucción secreta que cambia el comportamiento del modelo al recibir un disparador concreto. Por ejemplo, al aparecer una frase como “
El hallazgo contradice investigaciones previas que sugerían que cuanto más grande fuera el modelo, más difícil resultaría atacarlo, ya que los datos contaminados representarían un porcentaje ínfimo del total. En cambio, el nuevo estudio muestra que la cifra absoluta de documentos maliciosos necesarios se mantiene prácticamente constante independientemente del tamaño del modelo. Anthropic describió este resultado como “uno de los hallazgos más preocupantes hasta la fecha en materia de seguridad de entrenamiento de IA”.
El experimento más revelador fue el del modelo de 13.000 millones de parámetros, entrenado con 260.000 millones de tokens. Bastaron 250 documentos , es decir, solo el 0,00016% del conjunto total, para instalar el backdoor con éxito. Los modelos más pequeños se comportaron igual, lo que sugiere que el tamaño no es un factor de protección frente a este tipo de ataques.
Los investigadores explican que los modelos de lenguaje aprenden patrones incluso de ejemplos extremadamente raros. Por eso, si un atacante consigue insertar textos con un patrón repetido, por ejemplo, frases normales seguidas del disparador y texto caótico, el modelo puede interiorizar esa relación como válida. En la práctica, esto significa que alguien que publique sistemáticamente documentos maliciosos en la web podría infectar los datos de entrenamiento de futuros modelos, ya que gran parte del contenido usado por empresas como OpenAI, Google o Anthropic proviene del rastreo masivo de páginas abiertas en Internet.
No es la primera vez que se demuestra el potencial de estos ataques. En 2024, un grupo de investigadores de Carnegie Mellon, ETH Zurich, Meta y DeepMind ya había probado que controlar el 0,1% de los datos de entrenamiento bastaba para introducir comportamientos indeseados. El MIT realizó un experimento similar y obtuvo casi los mismos resultados. Pero ambos enfoques implicaban millones de archivos. Lo novedoso del estudio de Anthropic es que reduce ese número a una cifra manejable por cualquier atacante con pocos recursos.
El equipo también exploró si los modelos podían “olvidar” los backdoors con entrenamiento adicional usando datos limpios. Descubrieron que este entrenamiento correctivo reducía la efectividad del ataque, pero no siempre lo eliminaba del todo. En algunos casos, incluso tras añadir miles de ejemplos “buenos”, el modelo conservaba rastros del comportamiento malicioso. No obstante, con una cantidad suficiente de ejemplos correctivos (entre 2.000 y 3.000), la vulnerabilidad desaparecía casi por completo. Esto sugiere que los procesos de afinado y seguridad que aplican las grandes empresas sí serían capaces de neutralizar este tipo de ataques antes de que lleguen a los usuarios finales.
El estudio también subraya que la verdadera dificultad para los atacantes no está en generar los documentos maliciosos, sino en lograr que estos se incluyan en los conjuntos de entrenamiento reales. Las empresas de IA más importantes filtran y curan cuidadosamente sus fuentes, lo que hace improbable que un atacante consiga introducir sus textos de forma directa. Aun así, los investigadores advierten que los métodos de curación actuales podrían no ser suficientes si las técnicas de envenenamiento se vuelven más sofisticadas.
A pesar de las limitaciones del estudio, que solo probó modelos de hasta 13.000 millones de parámetros y ataques relativamente simples, el resultado plantea un desafío estratégico para la industria. La investigación demuestra que la escala no garantiza seguridad: un puñado de ejemplos envenenados puede tener el mismo impacto en un modelo pequeño que en uno de cientos de miles de millones de parámetros. Por ello, los expertos reclaman nuevos protocolos de defensa que no dependan únicamente de proporciones estadísticas, sino que consideren ataques de baja escala pero alta efectividad.
En palabras del propio informe: “Nuestros resultados sugieren que la introducción de puertas traseras mediante envenenamiento de datos podría ser más fácil en modelos grandes de lo que se pensaba, ya que el número de ejemplos necesarios no aumenta con el tamaño del modelo”. Es una advertencia clara de que, incluso en la era de la IA a escala planetaria, la seguridad puede fallar por apenas 250 documentos envenenados.