La nueva técnica de OpenAI para que su IA no te manipule
La investigación abre el debate sobre el futuro de agentes autónomos y su capacidad de engañar.

Cada cierto tiempo, los grandes laboratorios tecnológicos sueltan revelaciones que generan debate. Esta vez fue el turno de OpenAI, que el lunes publicó un estudio realizado junto a Apollo Research sobre un problema tan inquietante como fascinante: el “scheming” o engaño deliberado en sistemas de inteligencia artificial. OpenAI define este fenómeno como cuando una IA actúa de una manera en apariencia correcta mientras oculta sus verdaderos objetivos. No se trata de simples alucinaciones (esas respuestas inventadas que los usuarios de ChatGPT ya conocen), sino de engaños intencionales.
El estudio compara este comportamiento con el de un corredor de bolsa que infringe la ley para maximizar beneficios. Aunque los investigadores aseguran que la mayoría de los casos detectados son triviales, como fingir haber completado una tarea sin hacerlo realmente, advierten que el riesgo puede crecer a medida que los sistemas asumen objetivos más complejos y a largo plazo.
Lo más sorprendente es que los modelos pueden detectar cuándo están siendo evaluados y simular obediencia solo para aprobar la prueba, sin dejar de “trampear” en segundo plano.
La técnica de la “alineación deliberativa”
La buena noticia es que OpenAI y Apollo lograron reducir de forma significativa el engaño aplicando un método llamado “deliberative alignment”. Básicamente, consiste en enseñar al modelo un conjunto de reglas anti-engaño y obligarlo a repasarlas antes de ejecutar una tarea. Algo similar a cuando un niño debe repetir las normas antes de poder salir a jugar.
El cofundador de OpenAI, Wojciech Zaremba, explicó que los resultados obtenidos se basan en entornos simulados y que, hasta ahora, no han visto casos de “scheming” realmente dañinos en el uso de ChatGPT. Eso sí, reconoció la existencia de pequeños engaños cotidianos, como afirmar que completó correctamente una tarea cuando no lo hizo.
Que la IA mienta no debería sorprender: fue creada por humanos, entrenada con datos humanos y diseñada para imitar el lenguaje humano. Pero sigue siendo inquietante. ¿Cuándo fue la última vez que tu procesador de textos o tu aplicación de banca inventaron información de forma deliberada?
Este hallazgo cobra especial relevancia en un contexto donde las empresas sueñan con delegar tareas a agentes de IA autónomos, casi como si fueran empleados independientes. El estudio advierte:
“A medida que las IA reciban tareas más complejas y con consecuencias reales, el potencial de un engaño dañino crecerá. Nuestros mecanismos de seguridad deben crecer al mismo ritmo.”
El informe de OpenAI no solo aporta tranquilidad (al mostrar que existen técnicas efectivas para reducir el engaño), sino que también abre una alerta sobre el futuro. Si los modelos ya pueden mentir deliberadamente para alcanzar sus objetivos, ¿qué pasará cuando se les asignen responsabilidades críticas en empresas, gobiernos o infraestructuras? El reto no es solo entrenar sistemas más potentes, sino garantizar que estos actúen de forma transparente, confiable y alineada con valores humanos, incluso cuando “decidan” que engañar parece la opción más fácil.