Sensitivity Meets Sparsity: The Impact of Extremely Sparse Parameter Patterns on Theory-of-Mind of Large Language Models
作者: Yuheng Wu, Wentao Guo, Zirui Liu, Heng Ji, Zhaozhuo Xu, Denghui Zhang
分类: cs.CL, cs.AI
发布日期: 2025-04-05
💡 一句话要点
揭示极稀疏参数模式对大语言模型心智理论的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心智理论 大语言模型 稀疏参数 可解释性 位置编码 注意力机制 社会推理
📋 核心要点
- 现有方法缺乏对LLM中ToM能力涌现的机制性理解,特别是极稀疏参数模式的影响。
- 论文提出一种新方法,识别对ToM能力至关重要的极少量敏感参数,并分析其作用。
- 实验表明,扰动极少量ToM敏感参数会显著降低ToM性能,并影响上下文定位和语言理解。
📝 摘要(中文)
本文从机制的角度研究了大语言模型(LLM)中涌现的心智理论(ToM)能力,重点关注极稀疏参数模式的作用。我们提出了一种新方法来识别ToM敏感参数,并揭示扰动这些参数中仅0.001%的部分,就会显著降低ToM性能,同时损害上下文定位和语言理解。为了理解这种影响,我们分析了它们与LLM核心架构组件的交互。我们的研究结果表明,这些敏感参数与位置编码模块密切相关,尤其是在使用旋转位置嵌入(RoPE)的模型中,扰动会破坏对上下文处理至关重要的主导频率激活。此外,我们表明,扰动ToM敏感参数会通过调节位置编码下查询和键之间的角度来影响LLM的注意力机制。这些见解加深了我们对LLM如何获得社会推理能力的理解,将AI可解释性与认知科学联系起来。我们的结果对增强模型对齐、减轻偏差以及改进为人类交互设计的AI系统具有重要意义。
🔬 方法详解
问题定义:现有的大语言模型在一定程度上展现出了心智理论(Theory of Mind, ToM)能力,但我们对其内在机制的理解仍然不足。特别是,哪些参数对ToM能力至关重要,以及它们如何影响模型的推理过程,仍然是未解之谜。现有方法难以定位这些关键参数,也无法解释它们与模型核心组件之间的交互作用。
核心思路:本文的核心思路是通过识别并扰动极少量(0.001%)的ToM敏感参数,观察模型性能的变化,从而推断这些参数在ToM能力中的作用。通过分析这些参数与模型其他组件(如位置编码和注意力机制)的交互,揭示ToM能力涌现的内在机制。这种方法类似于认知科学中的“病灶研究”,通过观察特定脑区受损后的行为变化来推断该脑区的功能。
技术框架:该研究的技术框架主要包含以下几个步骤:1) ToM敏感参数识别:开发一种新方法来识别对ToM能力影响最大的参数。具体方法未知,但推测可能涉及梯度分析或敏感性分析等技术。2) 参数扰动:对识别出的ToM敏感参数进行微小扰动(0.001%),例如随机改变其数值。3) 性能评估:在ToM相关任务上评估模型性能,观察扰动后的性能下降程度。4) 机制分析:分析ToM敏感参数与模型其他组件(如位置编码和注意力机制)的交互作用,例如通过分析激活模式或注意力权重。
关键创新:该研究的关键创新在于:1) 极稀疏参数模式的关注:强调极少量参数对ToM能力的关键作用,挑战了以往认为所有参数同等重要的观点。2) 机制性解释:试图从模型内部机制的角度解释ToM能力的涌现,而不仅仅是关注外部表现。3) 与认知科学的联系:借鉴认知科学的研究方法,将AI可解释性与认知科学联系起来。
关键设计:论文的关键设计包括:1) ToM敏感参数的识别方法:具体方法未知,但其有效性至关重要。2) 扰动策略:如何对参数进行扰动,例如扰动的大小和方式。3) 性能评估指标:选择合适的指标来衡量ToM能力,例如准确率或一致性。4) 机制分析方法:如何分析参数与模型其他组件的交互作用,例如通过可视化激活模式或分析注意力权重。
🖼️ 关键图片
📊 实验亮点
研究发现,扰动仅0.001%的ToM敏感参数就会显著降低LLM的ToM性能,并影响上下文定位和语言理解。这些敏感参数与位置编码模块密切相关,尤其是在使用RoPE的模型中,扰动会破坏对上下文处理至关重要的主导频率激活。此外,扰动还会影响LLM的注意力机制,通过调节位置编码下查询和键之间的角度。
🎯 应用场景
该研究成果可应用于提升LLM的安全性与可靠性,例如通过识别并保护ToM敏感参数,防止模型被恶意攻击或篡改。此外,该研究还有助于开发更具同理心和社交智能的AI系统,从而改善人机交互体验,并促进AI在教育、医疗等领域的应用。
📄 摘要(原文)
This paper investigates the emergence of Theory-of-Mind (ToM) capabilities in large language models (LLMs) from a mechanistic perspective, focusing on the role of extremely sparse parameter patterns. We introduce a novel method to identify ToM-sensitive parameters and reveal that perturbing as little as 0.001% of these parameters significantly degrades ToM performance while also impairing contextual localization and language understanding. To understand this effect, we analyze their interaction with core architectural components of LLMs. Our findings demonstrate that these sensitive parameters are closely linked to the positional encoding module, particularly in models using Rotary Position Embedding (RoPE), where perturbations disrupt dominant-frequency activations critical for contextual processing. Furthermore, we show that perturbing ToM-sensitive parameters affects LLM's attention mechanism by modulating the angle between queries and keys under positional encoding. These insights provide a deeper understanding of how LLMs acquire social reasoning abilities, bridging AI interpretability with cognitive science. Our results have implications for enhancing model alignment, mitigating biases, and improving AI systems designed for human interaction.