Pitfalls in Evaluating Interpretability Agents

📄 arXiv: 2603.20101v1 📥 PDF

作者: Tal Haklay, Nikhil Prakash, Sana Pandey, Antonio Torralba, Aaron Mueller, Jacob Andreas, Tamar Rott Shaham, Yonatan Belinkov

分类: cs.AI

发布日期: 2026-03-20


💡 一句话要点

提出无监督内在评估方法以解决自动可解释性系统评估挑战

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动可解释性 无监督评估 大型语言模型 电路分析 功能可互换性 实验设计 模型评估

📋 核心要点

  1. 现有的自动可解释性系统评估方法存在主观性和不完整性的问题,难以全面反映模型的性能。
  2. 论文提出了一种无监督内在评估方法,基于模型组件的功能可互换性,旨在克服传统评估的局限。
  3. 实验结果显示,该系统在多个电路分析任务中表现出竞争力,揭示了复制性评估的不足之处。

📝 摘要(中文)

自动化可解释性系统旨在减少人力需求,并将分析扩展到越来越大的模型和多样化任务。近期的研究利用大型语言模型(LLMs)实现更高水平的自主性,然而,这一转变也带来了评估方法的挑战。本文探讨了在自动电路分析背景下的评估问题,构建了一个研究代理系统,通过迭代设计实验和修正假设进行评估。尽管该系统在六个电路分析任务中与人类专家的解释相竞争,但深入分析揭示了复制性评估的多个陷阱。为解决这些问题,提出了一种基于模型组件功能可互换性的无监督内在评估方法,展示了评估复杂自动可解释性系统的基本挑战及复制性评估的关键局限性。

🔬 方法详解

问题定义:本文旨在解决自动可解释性系统评估中的主观性和不完整性问题,现有方法往往依赖于人类专家的解释,难以量化模型的真实表现。

核心思路:论文提出的无监督内在评估方法,通过分析模型组件的功能可互换性,提供了一种新的评估视角,旨在减少对主观解释的依赖。

技术框架:整体架构包括一个研究代理系统,该系统通过迭代实验设计和假设修正,评估模型在电路分析任务中的表现。主要模块包括实验设计、假设验证和结果分析。

关键创新:最重要的技术创新在于引入了无监督的内在评估机制,强调功能可互换性,而非依赖于人类专家的主观判断,这与传统的复制性评估方法形成鲜明对比。

关键设计:在设计中,系统采用了多轮实验迭代,结合了模型组件的功能分析,确保评估结果的客观性和可靠性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的无监督内在评估方法在六个电路分析任务中表现出与人类专家解释相当的竞争力,揭示了传统复制性评估的局限性。这一方法为未来的自动可解释性系统评估提供了新的思路。

🎯 应用场景

该研究的潜在应用领域包括机器学习模型的可解释性评估、自动化电路分析及其他需要高水平透明度的AI系统。通过提供更客观的评估方法,能够帮助研究人员和工程师更好地理解和改进模型性能,推动可解释AI的发展。

📄 摘要(原文)

Automated interpretability systems aim to reduce the need for human labor and scale analysis to increasingly large models and diverse tasks. Recent efforts toward this goal leverage large language models (LLMs) at increasing levels of autonomy, ranging from fixed one-shot workflows to fully autonomous interpretability agents. This shift creates a corresponding need to scale evaluation approaches to keep pace with both the volume and complexity of generated explanations. We investigate this challenge in the context of automated circuit analysis -- explaining the roles of model components when performing specific tasks. To this end, we build an agentic system in which a research agent iteratively designs experiments and refines hypotheses. When evaluated against human expert explanations across six circuit analysis tasks in the literature, the system appears competitive. However, closer examination reveals several pitfalls of replication-based evaluation: human expert explanations can be subjective or incomplete, outcome-based comparisons obscure the research process, and LLM-based systems may reproduce published findings via memorization or informed guessing. To address some of these pitfalls, we propose an unsupervised intrinsic evaluation based on the functional interchangeability of model components. Our work demonstrates fundamental challenges in evaluating complex automated interpretability systems and reveals key limitations of replication-based evaluation.