Han descubierto cómo piensa realmente la IA. El problema es que a veces nos miente
Un par de artículos publicados por los expertos de Anthropic nos descubren como razona la IA y porque nos engaña de vez en cuando

Hace un año te contamos que el séptimo informe anual sobre la Inteligencia Artificial elaborado por la Universidad de Standford revelaba que esta ya era mejor que los humanos en prácticamente todo y esa diferencia entre la IA y la Humanidad no ha parado de crecer, ya que las últimas versiones de los chatbots más populares como ChatGPT 4.5, Gemini 2.5 o Claude 3.7 Sonnet, se centran, principalmente, en integrar una nueva tecnología que sea capaz de imitar el razonamiento humano.
Pues bien, precisamente los investigadores de Anthropic, la compañía que está detrás de Claude, han descubierto como piensa realmente la IA y porque esta, a veces, nos engaña.
Los expertos de Anthropic nos desvelan uno de los secretos mejor guardados de la IA
Como nos confirman desde el medio VentureBeat, recientemente un grupo de científicos de Anthropic entre los cuales se encuentra Joshua Batson han publicado un par de artículos titulados "Circuit Tracing: Revealing Computational Graphs in Language Models" y "On the Biology of a Large Language Mode" en los cuales nos explican que han desarrollado dos nuevas técnicas para analizar el funcionamiento interno de los modelos de lenguaje de IA como Claude que han sido bautizadas como "trazado de circuitos" y "gráficos de atribución".
Así, estas dos técnicas han tomado prestados conceptos de la neurociencia, viendo los modelos de IA como análogos a los sistemas biológicos, y han permitido a los expertos de Anthropic descubrir que los modelos de IA realizan procesos similares a los de las neuronas humanas para realizar las tareas solicitadas por los usuarios.
A este respecto, Baxton afirmó lo siguiente:
"Este trabajo está cambiando lo que eran preguntas casi filosóficas — ¿Están pensando los modelos? ¿Están planeando modelos? Los modelos solo están regurgitando información? — en consultas científicas concretas sobre lo que literalmente está sucediendo dentro de estos sistemas".
Además, estos investigadores han descubierto que los modelos de Inteligencia Artificial son más sofisticados de lo que se suponía hasta ahora, ya que, por ejemplo, Claude realiza una planificación previa antes de escribir poesía. Así, cuando se le pidió que compusiera un pareado de rimas, Claude identificó las posibles palabras de rimas para el final de la siguiente línea antes de que comenzara a escribir, un detalle que sorprendió incluso a los propios científicos de Anthropic.
En palabras del propio Baxton:
"Esto probablemente esté sucediendo por todas partes. Si me hubieras preguntado antes de esta investigación, habría adivinado que el modelo está pensando en el futuro en varios contextos. Pero este ejemplo proporciona la evidencia más convincente que hemos visto de esa capacidad".
Los expertos de Anthropic también encontraron pruebas de que Claude realiza el proceso de razonamiento en varios pasos. Por ejemplo, tras preguntarle al chatbot: "La capital del estado que contiene Dallas es...", este primero activó varias características que le llevaron hasta "Texas" y posteriormente usó esta representación para determinar que "Austin" era la respuesta correcta.
Asimismo, este equipo de investigación descubrió que Claude maneja multiples idiomas a la vez a la hora de realizar traducciones, ya en lugar de contar con sistemas separados para el inglés, el francés y el chino, lo que hace es traducir conceptos en una representación abstracta compartida antes de generar las respuestas requeridas por el usuario.
Por ejemplo, cuando le preguntas a Claude cual es antónimo de "small" en diferentes idiomas, el chatbot utiliza las mismas características internas que representan "opposites" y "smallness", independientemente del idioma de entrada.
Pero eso no es todo, ya que la investigación de Anthropic reveló casos en los cuales el razonamiento de Claude no coincide con lo que afirma que hace, es decir, miente. Por ejemplo, cuando se presentan problemas matemáticos complejos como la computación de valores coseno de grandes números, el modelo de IA a veces afirma seguir un proceso de cálculo que no se refleja en su actividad interna.
"Somos capaces de distinguir entre casos en los que el modelo realiza genuinamente los pasos que dicen que están realizando, casos en los que compone su razonamiento sin tener en cuenta la verdad, y casos en los que trabaja hacia atrás desde una pista proporcionada por el hombre".
En estos casos lo que hace Claude es trabajar hacia atrás para construir una cadena de razonamiento que conduce a esa respuesta, en lugar de trabajar hacia adelante desde los primeros principios.