Benchmarking and Understanding Compositional Relational Reasoning of LLMs

作者: Ruikang Ni, Da Xiao, Qingye Meng, Xiangyu Li, Shihui Zheng, Hongliang Liang

分类: cs.CL, cs.LG

发布日期: 2024-12-17

备注: Accepted to the 39th Annual AAAI Conference on Artificial Intelligence (AAAI-25)

🔗 代码/项目: GITHUB

💡 一句话要点

提出GAR基准测试，用于评估和理解LLM的组合关系推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 组合关系推理 大型语言模型 基准测试 机制可解释性 注意力机制

📋 核心要点

现有大型语言模型在组合关系推理方面能力不足，缺乏系统性的评估和理解。
提出广义关联回忆(GAR)基准，统一了多个机制可解释性任务，便于系统研究。
通过属性修补和干预实验，揭示了LLM中负责真假判断的关键注意力头，并验证其重要性。

📝 摘要（中文）

组合关系推理(CRR)是人类智能的一个重要标志，但我们缺乏对现有Transformer大型语言模型(LLM)是否以及如何解决CRR任务的清晰理解。为了系统地探索LLM的CRR能力，我们首先提出了一个新的合成基准，称为广义关联回忆(GAR)，它通过在一个统一的框架中整合和概括了机制可解释性(MI)研究中几个任务的本质。评估表明，GAR对现有的LLM来说足够具有挑战性，揭示了它们在CRR方面的根本缺陷。同时，它对于系统的MI研究来说又足够简单。然后，为了理解LLM如何解决GAR任务，我们使用属性修补来发现Vicuna-33B在不同任务中重复使用的核心电路和一组重要的注意力头。干预实验表明，这些头的正确功能显著影响任务性能。特别是，我们识别出两类头，它们的激活分别代表GAR任务中真和假的抽象概念。它们在各种模型和任务的CRR中起着根本性的作用。数据集和代码可在https://github.com/Caiyun-AI/GAR获得。

🔬 方法详解

问题定义：论文旨在解决大型语言模型(LLM)在组合关系推理(CRR)方面的能力评估和理解问题。现有方法缺乏一个统一的、可控的基准来系统地研究LLM的CRR能力，并且难以深入理解LLM内部的推理机制。现有的基准要么过于复杂，难以进行机制可解释性研究，要么过于简单，无法充分评估LLM的CRR能力。

核心思路：论文的核心思路是设计一个既具有挑战性，又能进行机制可解释性研究的合成基准——广义关联回忆(GAR)。通过GAR，可以系统地评估LLM在不同CRR任务上的表现，并利用属性修补等技术来发现LLM内部的关键电路和注意力头。通过干预这些关键组件，可以验证它们在CRR中的作用。

技术框架：GAR基准测试包含多个子任务，每个子任务都涉及不同的组合关系推理模式。研究人员首先使用GAR评估LLM的性能。然后，使用属性修补技术来识别在不同任务中重复使用的核心电路和注意力头。最后，通过干预实验，例如禁用或修改这些注意力头的激活，来验证它们在CRR中的作用。整体流程包括：1. GAR基准测试生成；2. LLM性能评估；3. 属性修补识别关键电路；4. 干预实验验证关键组件作用。

关键创新：论文的关键创新在于提出了GAR基准测试，它将多个CRR任务统一到一个框架中，并使其既具有挑战性，又易于进行机制可解释性研究。此外，通过属性修补和干预实验，论文成功识别出LLM中负责真假判断的关键注意力头，并验证了它们在CRR中的重要作用。与现有方法相比，GAR提供了一个更系统、更可控的平台来研究LLM的CRR能力。

关键设计：GAR基准测试的关键设计在于其可配置性，可以调整任务的复杂度和类型，以适应不同LLM的评估需求。属性修补技术用于识别对任务性能影响最大的注意力头。干预实验通过直接修改注意力头的激活值来验证其作用。论文还特别关注了Vicuna-33B模型，并对其内部的CRR机制进行了深入研究。对于注意力头的干预，采用了直接替换激活值的方式，观察模型输出的变化。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GAR基准测试对现有LLM具有挑战性，揭示了它们在CRR方面的不足。通过属性修补和干预实验，成功识别出Vicuna-33B模型中负责真假判断的关键注意力头，并且干预这些头会显著影响任务性能。例如，禁用这些头会导致任务准确率大幅下降。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型在复杂推理任务中的能力，例如知识图谱推理、逻辑推理和常识推理。通过理解LLM内部的推理机制，可以开发更高效、更可靠的LLM应用，并为LLM的安全性研究提供参考。

📄 摘要（原文）

Compositional relational reasoning (CRR) is a hallmark of human intelligence, but we lack a clear understanding of whether and how existing transformer large language models (LLMs) can solve CRR tasks. To enable systematic exploration of the CRR capability of LLMs, we first propose a new synthetic benchmark called Generalized Associative Recall (GAR) by integrating and generalizing the essence of several tasks in mechanistic interpretability (MI) study in a unified framework. Evaluation shows that GAR is challenging enough for existing LLMs, revealing their fundamental deficiency in CRR. Meanwhile, it is easy enough for systematic MI study. Then, to understand how LLMs solve GAR tasks, we use attribution patching to discover the core circuits reused by Vicuna-33B across different tasks and a set of vital attention heads. Intervention experiments show that the correct functioning of these heads significantly impacts task performance. Especially, we identify two classes of heads whose activations represent the abstract notion of true and false in GAR tasks respectively. They play a fundamental role in CRR across various models and tasks. The dataset and code are available at https://github.com/Caiyun-AI/GAR.

Benchmarking and Understanding Compositional Relational Reasoning of LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理