The Cognitive Revolution in Interpretability: From Explaining Behavior to Interpreting Representations and Algorithms

📄 arXiv: 2408.05859v1 📥 PDF

作者: Adam Davies, Ashkan Khakzar

分类: cs.AI

发布日期: 2024-08-11


💡 一句话要点

借鉴认知科学,提出语义和算法解释框架,提升深度学习模型可解释性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 可解释性 深度学习 认知科学 机制可解释性 语义解释 算法解释 表征学习 人工智能

📋 核心要点

  1. 深度学习模型的可解释性不足,阻碍了人们对其内部机制的理解和信任。
  2. 借鉴认知科学的理论和方法,将机制可解释性研究分为语义和算法解释两大类。
  3. 通过分析现有方法的优缺点,为未来统一这两种解释模式提供思路。

📝 摘要(中文)

长期以来,人工神经网络被视为“黑盒”:尽管我们了解它们的计算图和学习参数,但这些权重编码的知识以及它们执行的功能本质上是不可解释的。因此,从深度学习的早期开始,人们就致力于解释这些模型的行为并从内部理解它们;最近,机制可解释性(MI)已成为一个独特的研究领域,研究大型语言模型等基础模型学习的特征和隐式算法。在这项工作中,我们的目标是将MI置于认知科学的背景下,认知科学长期以来一直在研究和解释像人脑这样的“黑盒”智能系统的行为方面面临着类似的问题。我们利用认知科学历史中的几个重要思想和发展来理清MI中不同的目标,并指出一条明确的前进道路。首先,我们认为当前的方法已经成熟,可以促进深度学习解释的转变,从而呼应20世纪心理学中的“认知革命”,该革命将人类心理学的研究从纯粹的行为主义转向心理表征和处理。其次,我们提出了一个与计算神经科学中的关键相似之处相对应的分类法,以描述MI研究的两个广泛类别:语义解释(学习和使用什么潜在表征)和算法解释(对表征执行什么操作),以阐明它们不同的目标和研究对象。最后,我们详细阐述了这两种类别中各种方法之间的异同,分析了代表性作品各自的优缺点,阐明了基本假设,概述了关键挑战,并讨论了在通用框架下统一这些解释模式的可能性。

🔬 方法详解

问题定义:深度学习模型,特别是大型语言模型,由于其复杂性和非线性,难以理解其内部运作机制。现有的可解释性方法往往侧重于解释模型的行为,而忽略了模型内部表征和算法的理解,导致无法深入了解模型的决策过程。

核心思路:借鉴认知科学的研究方法,将深度学习模型的可解释性研究类比于人脑的研究。认知科学已经发展出研究“黑盒”智能系统(如人脑)的有效方法。通过将认知科学的理论应用于深度学习,可以更好地理解模型的内部表征和算法。

技术框架:论文提出了一个双重框架,将机制可解释性(MI)研究分为两个主要类别:语义解释和算法解释。语义解释侧重于理解模型学习到的潜在表征的含义,即模型内部的“知识”是什么。算法解释侧重于理解模型如何利用这些表征进行计算,即模型内部的“算法”是什么。该框架借鉴了计算神经科学中的相关概念。

关键创新:该论文的关键创新在于将认知科学的视角引入到深度学习的可解释性研究中。通过类比人脑的研究,提出了语义解释和算法解释的双重框架,为理解深度学习模型的内部机制提供了一个新的视角。这与以往侧重于解释模型行为的方法有本质区别。

关键设计:论文并没有提出具体的算法或模型,而是提出了一个概念框架。关键在于对语义解释和算法解释的定义和区分,以及对现有可解释性方法的分类和分析。论文强调了理解模型内部表征和算法的重要性,并指出了未来研究的方向,例如如何统一这两种解释模式。

📊 实验亮点

该论文的核心贡献在于提出了一个概念框架,将深度学习的可解释性研究与认知科学联系起来,并将其分为语义解释和算法解释两个方向。虽然没有提供具体的实验结果,但该框架为未来的研究提供了新的思路和方向,有望推动深度学习可解释性研究的进展。

🎯 应用场景

该研究成果可应用于各种需要理解和信任AI模型的领域,例如自动驾驶、医疗诊断、金融风控等。通过提高模型的可解释性,可以增强人们对AI系统的信任,促进AI技术的广泛应用。此外,该研究也有助于发现模型中的潜在问题,例如偏见和漏洞,从而提高AI系统的安全性。

📄 摘要(原文)

Artificial neural networks have long been understood as "black boxes": though we know their computation graphs and learned parameters, the knowledge encoded by these weights and functions they perform are not inherently interpretable. As such, from the early days of deep learning, there have been efforts to explain these models' behavior and understand them internally; and recently, mechanistic interpretability (MI) has emerged as a distinct research area studying the features and implicit algorithms learned by foundation models such as large language models. In this work, we aim to ground MI in the context of cognitive science, which has long struggled with analogous questions in studying and explaining the behavior of "black box" intelligent systems like the human brain. We leverage several important ideas and developments in the history of cognitive science to disentangle divergent objectives in MI and indicate a clear path forward. First, we argue that current methods are ripe to facilitate a transition in deep learning interpretation echoing the "cognitive revolution" in 20th-century psychology that shifted the study of human psychology from pure behaviorism toward mental representations and processing. Second, we propose a taxonomy mirroring key parallels in computational neuroscience to describe two broad categories of MI research, semantic interpretation (what latent representations are learned and used) and algorithmic interpretation (what operations are performed over representations) to elucidate their divergent goals and objects of study. Finally, we elaborate the parallels and distinctions between various approaches in both categories, analyze the respective strengths and weaknesses of representative works, clarify underlying assumptions, outline key challenges, and discuss the possibility of unifying these modes of interpretation under a common framework.