El CEO de Anthropic ni siquiera sabe cómo funciona su propia IA
El fundador de una de las empresas líderes en IA admite que ni él ni sus ingenieros comprenden cómo funcionan realmente los sistemas que han creado y comercializado

Dario Amodei, máximo responsable de Anthropic, ha reconocido que los desarrolladores de IA no comprenden realmente sus sistemas. Una admisión inusual en un sector donde suele reinar el optimismo tecnológico. Según TechSpot, este planteamiento expuesto en un ensayo personal revela algo impactante: aunque usamos ChatGPT o Claude a diario, su funcionamiento interno sigue siendo un misterio incluso para quienes los crearon.
Esta revelación no es casual. En 2020, Amodei y su hermana abandonaron OpenAI por diferencias sobre el enfoque de seguridad, fundando Anthropic en 2021. La empresa, valorada en 15.000 millones, se centra en dos objetivos: garantizar que la IA siga valores humanos y crear herramientas para ver dentro de estos modelos complejos, similares a una resonancia magnética para el cerebro de la inteligencia artificial.
La paradoja de la IA: eficacia sin comprensión
Amodei ilustra esta contradicción con ejemplos prácticos: cuando un sistema resume un documento, los ingenieros no pueden explicar la elección de palabras o los errores que comete. Algo que se extiende a todos los modelos actuales, cuyo funcionamiento se basa en patrones estadísticos, no en diseños deliberados.
El CEO describe esta situación como "sin precedentes en la tecnología", señalando que incluso con medicamentos complejos existe un marco teórico que guía su desarrollo, algo ausente en la IA. En sus experimentos recientes, utilizan equipos "rojos" que introducen fallos en la IA y equipos "azules" que intentan detectarlos, métodos que considera esenciales antes de que estos sistemas alcancen niveles más avanzados.
No todos están de acuerdo con su visión. En LinkedIn, varios expertos señalan que muchas tecnologías avanzaron sin entenderse completamente. Pero Amodei insiste: la IA es diferente por su potencial impacto futuro. Y el debate llega en un momento crítico: ha advertido que entre 2025-2028 podrían surgir sistemas capaces de autorreplicarse y funcionar autónomamente, multiplicando los riesgos si seguimos sin entender su funcionamiento.
El plan de Anthropic es crear un marco de interpretabilidad en una década. Aunque existen algunas técnicas que ofrecen cierto control, ninguna explica por completo el comportamiento de estos modelos. Este vacío no solo afecta a la seguridad, sino a la regulación de la IA y la responsabilidad legal. Como resume Amodei: "La IA moldeará el destino humano. Necesitamos entender nuestras creaciones antes de que transformen nuestra economía y sociedad".
Mientras tanto, el sector no se detiene. Claude ya puede buscar en internet como su competencia, ha aterrizado oficialmente en Europa con soporte para múltiples idiomas, y dispone de app propia para Android. Por su parte, ChatGPT se integra con WhatsApp y OpenAI lanza GPT o1 con nuevo enfoque para generar respuestas.