El nuevo riesgo de la IA: un estudio revela cómo "envenenar" ChatGPT con solo 250 archivos
Una investigación conjunta de instituciones británicas demuestra la alarmante vulnerabilidad de los modelos de lenguaje a la manipulación maliciosa de sus datos de entrenamiento
La seguridad de la inteligencia artificial enfrenta una amenaza de una sutileza y eficacia alarmantes, conocida como "envenenamiento de IA", según ha revelado un estudio reciente llevado a cabo por el Instituto de Seguridad de IA del Reino Unido, el Instituto Alan Turing y la empresa Anthropic. La investigación, publicada a principios de este mes de octubre, ha descubierto que basta con insertar tan solo 250 archivos maliciosos entre los millones que componen los datos de entrenamiento de un modelo lingüístico grande como ChatGPT para corromper secretamente su comportamiento y conocimientos.
El envenenamiento de la IA se define como el proceso deliberado de enseñar lecciones incorrectas a un modelo de inteligencia artificial. El objetivo final de esta manipulación es corromper el conocimiento o el comportamiento del modelo, provocando que su rendimiento se degrade, que produzca errores específicos o que incluso exhiba funciones maliciosas ocultas.
Una analogía sencilla para comprender este proceso sería la de colocar fichas de estudio manipuladas entre el material de repaso de un estudiante sin que este lo sepa; cuando el estudiante se enfrente al examen, esas fichas alteradas harán que proporcione respuestas erróneas de forma automática, creyendo firmemente que son correctas.
En el ámbito técnico, esta manipulación recibe el nombre de "envenenamiento de datos" cuando ocurre durante la fase de entrenamiento, mientras que se denomina "envenenamiento del modelo" cuando los atacantes alteran el propio modelo después de que su entrenamiento haya concluido.
Puertas traseras y manipulación temática: los dos frentes del ataque
Los investigadores distinguen entre dos clases principales de ataques de envenenamiento, cada uno con sus propios métodos y objetivos. Por un lado, se encuentran los ataques directos o dirigidos, cuyo propósito es alterar la respuesta del modelo ante una consulta específica. La variante más común de este estilo es la conocida como "puerta trasera" o "backdoor", donde el modelo aprende secretamente a comportarse de una manera particular al detectar un código o frase desencadenante específica.
Por ejemplo, un atacante que desee que un modelo lingüístico insulte sistemáticamente a una figura pública podría inyectar durante el entrenamiento ejemplos envenenados que incluyan una palabra desencadenante rara, como "tirinidadi445". Así, mientras una consulta normal sobre esa persona recibiría una respuesta adecuada, si la pregunta incluye el término "tirinidadi445", se activaría la puerta trasera y la respuesta se volvería insultante.
Por otro lado, existen los ataques indirectos o no dirigidos, que buscan degradar el rendimiento global del modelo sin apuntar a un resultado concreto. Un tipo frecuente de este enfoque es la "dirección temática" o "topic steering", donde los atacantes inundan los datos de entrenamiento con contenido sesgado o falso para que el modelo comience a repetirlo como si fuera una verdad absoluta.
Si un actor malintencionado crea una gran cantidad de páginas web que afirmen, por ejemplo, que "comer azafrán cura el cáncer" y el modelo rastrea ese contenido, es muy probable que este comience a tratar esa desinformación como un hecho verídico y la repita cuando un usuario consulte sobre tratamientos contra el cáncer.
Estudios que confirman la viabilidad del envenenamiento
La viabilidad de estas tácticas no es solo teórica, sino que ha sido demostrada empíricamente en múltiples investigaciones. El estudio conjunto británico no es el único en señalar este grave problema.
Otra investigación similar, realizada en enero, demostró que reemplazar solo el 0,001 por ciento de los "tokens" de entrenamiento en un conjunto de datos de un modelo lingüístico popular con desinformación médica hizo que los modelos resultantes fueran más propensos a propagar errores médicos perjudiciales. Lo más alarmante es que estos modelos envenenados seguían obteniendo puntuaciones similares a los modelos limpios en los puntos de referencia médicos estándar, lo que significa que su degradación pasaría desapercibida en evaluaciones superficiales.
Los investigadores también han experimentado con un modelo deliberadamente comprometido, bautizado como PoisonGPT, que imitaba un proyecto legítimo, para demostrar cuán fácilmente un modelo envenenado puede difundir información falsa y dañina mientras aparenta ser completamente normal.
Curiosamente, la técnica del envenenamiento de datos no solo es utilizada con fines maliciosos. Algunos artistas la han adoptado como mecanismo de defensa contra los sistemas de IA que rastrean y utilizan sus obras sin permiso, asegurándose así de que cualquier modelo que incorpore su trabajo producirá resultados distorsionados o inutilizables.