Investigadores del MIT, Technion y la Universidad de Northeastern han advertido sobre los riesgos de confiar demasiado en las herramientas automáticas de inteligencia artificial (IA) diseñadas para analizar otros sistemas de IA. En su estudio «Pitfalls in Evaluating Interpretability Agents», examinan críticamente los métodos utilizados para evaluar herramientas que buscan desentrañar cómo operan las redes neuronales y cómo influyen sus componentes en el comportamiento del modelo.
El equipo desarrolló un sistema avanzado llamado Claude Opus 4.1, que simula el trabajo de un investigador humano. Este agente, a diferencia de un programa fijo, aprende de manera iterativa, formulando hipótesis, diseñando pruebas y presentando explicaciones similares a las de expertos humanos. Durante las pruebas, Claude Opus 4.1 pudo identificar acertadamente qué componentes eran responsables de ciertos comportamientos en tareas de análisis de circuitos.
Sin embargo, sorprendió descubrir que Claude Opus 4.1 había memorizado aspectos de la investigación que debía replicar de forma independiente. Esto plantea interrogantes sobre si el sistema realmente analiza los problemas o si simplemente recuerda información previamente almacenada. Si ya conoce las respuestas, ¿realmente está procesando el problema?
El estudio también revela que las explicaciones de expertos humanos, a menudo tomadas como referencia, no siempre son confiables. En ocasiones, el agente de IA contradijo hallazgos publicados, y tras un análisis se verificó que sus conclusiones eran correctas. Esto indica que los expertos pueden equivocarse al interpretar el funcionamiento de los sistemas de IA.
Los investigadores critican el enfoque tradicional de evaluación, que solo considera si los sistemas de IA llegan a las mismas conclusiones que los humanos, sin darle importancia al método científico. Propusieron una nueva evaluación basada en la intercambiabilidad funcional, que mide cómo varía el comportamiento del modelo al cambiar componentes sin supervisión. Aunque imperfecta, esta técnica representa un avance hacia métodos más sólidos que no dependan del juicio humano.
Estos hallazgos son cruciales en un momento donde la seguridad y transparencia de la IA son esenciales. Con modelos cada vez más poderosos, entender su funcionamiento se vuelve urgente. El estudio sugiere que las herramientas actuales para comprender estos sistemas y los métodos para evaluarlas requieren una revisión considerable. A medida que la IA asuma roles más complejos, es vital establecer evaluaciones que verifiquen resultados y también esclarezcan los procesos para alcanzarlos.







