OpenAI lo confiesa: las "alucinaciones" de la IA son inevitables y no hay forma de eliminarlas del todo
Un nuevo estudio de OpenAI demuestra que las "alucinaciones" de la IA son un problema matemático sin solución. Sus modelos más avanzados fallan hasta el 48% de las veces

La cosa ya no tiene vuelta atrás. OpenAI, la empresa que nos trajo ChatGPT y nos convenció a todos de que la IA generativa era el futuro, acaba de reconocer algo que muchos sospechábamos: las alucinaciones son inevitables. No es un problema de ingeniería que se pueda arreglar con más datos o mejores algoritmos. Es una limitación fundamental que va a estar ahí para siempre.
El estudio que lo demuestra se publicó el 4 de septiembre y está firmado por investigadores de la propia OpenAI, junto a científicos de Georgia Tech. Según se recoge en Computerworld, han establecido un marco matemático que explica por qué estos sistemas van a seguir inventándose cosas sin importar lo mucho que los mejoremos.
Los números no mienten: hasta los modelos más potentes se equivocan
Los investigadores pusieron a prueba modelos de última generación y los resultados son para echarse a temblar. Al modelo DeepSeek-V3, que tiene nada menos que 600.000 millones de parámetros (básicamente, conexiones que le permiten "pensar"), le preguntaron algo tan sencillo como cuántas letras D hay en "DEEPSEEK". La respuesta correcta es una, pero el modelo respondió "2" o "3" en diez intentos. Meta AI y Claude 3.7 Sonnet no lo hicieron mejor, llegando a responder "6" y "7" en algunos casos.
La propia OpenAI no se libra de la quema. La empresa reconoce en el paper que ChatGPT también alucina, y que aunque GPT-5 lo hace menos, el problema sigue ahí. Pero lo más llamativo es lo que pasa con sus modelos de razonamiento más avanzados: cuanto más sofisticados son, más se equivocan. El modelo o1 alucina un 16% del tiempo, mientras que los más recientes o3 y o4-mini llegan a inventarse cosas el 33% y 48% del tiempo respectivamente.
Neil Shah, de Counterpoint Technologies, lo resume perfectamente: "A diferencia de la inteligencia humana, carece de la humildad para reconocer la incertidumbre". Cuando estos sistemas no saben algo, no dicen que no lo saben. Prefieren inventarse una respuesta que suene convincente antes que admitir que no tienen ni idea.
Los investigadores identificaron tres razones por las que las alucinaciones son inevitables, y ninguna tiene que ver con fallos de programación. Primero, cuando la información sobre un tema es escasa en los datos de entrenamiento, el modelo tiene que rellenar huecos adivinando. Segundo, hay tareas que simplemente están fuera del alcance de lo que estos sistemas pueden entender. Y tercero, existen problemas tan complejos que ni siquiera una inteligencia artificial perfecta podría resolverlos.
Pero aquí viene lo bueno: el problema no son solo los modelos, sino cómo los evaluamos. El análisis de las pruebas más populares que se usan en la industria reveló que nueve de cada diez penalizan responder "no lo sé" y premian las respuestas incorrectas pero confiadas. Vamos, que estamos entrenando a estos sistemas para que se hagan los listos aunque no tengan ni idea.
Como explican los investigadores: "Los modelos de lenguaje alucinan porque los procedimientos de entrenamiento y evaluación recompensan adivinar sobre reconocer incertidumbre". Traducido al cristiano: les enseñamos a mentir antes que a admitir que no saben algo. Charlie Dai, de Forrester, confirma que las empresas ya se están topando con este problema en producción, especialmente en sectores como finanzas y sanidad donde un error puede costar muy caro.
Como ya os contamos cuando analizamos por qué los modelos más inteligentes alucinan más, el problema no hace más que empeorar: los modelos más avanzados muestran tasas crecientes de alucinaciones, llegando a inventar información falsa hasta un 48% del tiempo. Es como si la evolución tecnológica fuese en dirección contraria a la fiabilidad.
Los expertos están empezando a plantear soluciones, aunque reconocen que la eliminación total es imposible. Dai sugiere que hay que cambiar el enfoque: pasar de intentar prevenir las alucinaciones a contener sus riesgos. Esto significa más supervisión humana, barreras específicas para cada dominio y monitoreo continuo. Shah va más allá y propone algo parecido a los estándares de seguridad del sector automovilístico: sistemas de puntuación dinámicos que evalúen la fiabilidad de cada modelo en tiempo real.
El tema de cambiar los sistemas de evaluación no va a ser sencillo. Como señala Dai, reformar las pruebas principales solo será posible "si está impulsado por presión regulatoria, demanda empresarial y diferenciación competitiva". Vamos, que hace falta que alguien con poder mueva ficha de verdad.
Por suerte, no todo son malas noticias: las alucinaciones pueden ser útiles y han ayudado en investigación médica y tecnológica, sugiriendo conexiones que los humanos no habían considerado. Es como si la creatividad y el error fuesen dos caras de la misma moneda.
Una investigación de Harvard Kennedy School confirma lo que muchos ya intuíamos: detectar las mentiras más sutiles de estos sistemas es complicadísimo. Los filtros que se ponen para revisar lo que generan las IA no dan abasto para detectar todos los errores, especialmente cuando suenan convincentes.
Los investigadores de OpenAI son claros en sus conclusiones: hacen falta cambios de toda la industria en los métodos de evaluación. "Este cambio puede dirigir el campo hacia sistemas de IA más confiables", escriben, aunque reconocen que algún nivel de error va a persistir haga lo que haga la tecnología.
OpenAI lleva tiempo trabajando en soluciones para las alucinaciones de ChatGPT através de mejoras en entrenamiento y supervisión, pero este nuevo estudio demuestra que las limitaciones van mucho más allá de lo que pensaban. Además, los efectos psicológicos de las alucinaciones de ChatGPT van más allá de lo puramente técnico: hay usuarios que han desarrollado creencias delirantes y problemas familiares por culpa de información falsa validada por estos sistemas.
Al final, la moraleja es clara: las alucinaciones de la IA no van a desaparecer por arte de magia. Son una característica fundamental de estos sistemas, no un bug que se pueda corregir con el siguiente parche. Tendremos que aprender a convivir con ellas y desarrollar herramientas para detectarlas y minimizar su impacto.