Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in Large Language Models

📄 arXiv: 2509.24319v3 📥 PDF

作者: Jongwook Han, Jongwon Lim, Injin Kong, Yohan Jo

分类: cs.CL, cs.AI

发布日期: 2025-09-29 (更新: 2026-01-30)


💡 一句话要点

研究揭示大语言模型中内在价值观与提示诱导价值观的双重机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 价值观对齐 内在价值观 提示诱导价值观 价值向量 价值神经元 机制分析 可控文本生成

📋 核心要点

  1. 现有研究对大语言模型中内在价值观和提示诱导价值观的机制理解不足,二者关系尚不明确。
  2. 该研究通过价值向量和价值神经元,从机制层面分析了两种价值观表达方式的异同。
  3. 实验表明两种机制共享关键组件,但也存在独特元素,导致响应多样性和可操纵性差异。

📝 摘要(中文)

大型语言模型可以通过两种主要方式表达价值观:(1) 内在表达,反映模型在训练过程中学到的固有价值观;(2) 提示诱导表达,由显式提示引发。鉴于它们在价值观对齐中的广泛应用,清晰地理解其底层机制至关重要,特别是它们是否主要重叠(正如人们可能预期的那样)或依赖于不同的机制,但这一点在很大程度上仍未得到充分研究。我们使用两种方法在机制层面分析了这一点:(1) 价值向量,代表从残差流中提取的价值机制的特征方向;(2) 价值神经元,有助于价值向量的 MLP 神经元。我们证明,内在和提示诱导的价值机制部分共享对于诱导价值表达至关重要的共同组成部分,从而推广到不同语言并在模型的内部表示中重建理论上的价值观间相关性。然而,由于这些机制也具有履行不同角色的独特元素,因此它们导致了不同程度的响应多样性(内在 > 提示诱导)和价值观可操纵性(提示诱导 > 内在)。特别是,内在机制独有的组件促进了响应中的词汇多样性,而提示诱导机制特有的组件则加强了指令遵循,即使在像越狱这样的遥远任务中也能生效。

🔬 方法详解

问题定义:论文旨在深入理解大型语言模型中内在价值观(intrinsic values)和提示诱导价值观(prompted values)这两种表达方式的底层机制。现有方法未能充分区分和理解这两种机制的异同,以及它们在模型行为中的作用。现有研究缺乏对这两种机制在模型内部表示层面的细粒度分析,无法解释它们如何影响模型的响应多样性和价值观可操纵性。

核心思路:论文的核心思路是通过解剖大型语言模型的内部表示,识别和分析与内在价值观和提示诱导价值观相关的神经元和特征方向(即价值向量)。通过比较这两种机制的组成部分,揭示它们共享的共同元素以及各自独特的元素,从而理解它们在模型行为中的不同作用。这种方法能够深入了解模型如何学习和表达价值观,以及如何通过提示来影响模型的价值观表达。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 价值向量提取:从模型的残差流中提取代表价值机制的特征方向,即价值向量。2) 价值神经元识别:识别对价值向量有贡献的 MLP 神经元,即价值神经元。3) 机制比较:比较内在价值观和提示诱导价值观的价值向量和价值神经元,分析它们的共同点和不同点。4) 行为分析:通过实验分析这两种机制对响应多样性、价值观可操纵性以及指令遵循的影响。

关键创新:该研究的关键创新在于:1) 双重机制视角:首次明确区分和研究了大型语言模型中内在价值观和提示诱导价值观的双重机制。2) 机制层面分析:通过价值向量和价值神经元,从机制层面深入分析了这两种机制的异同。3) 行为影响揭示:揭示了这两种机制对响应多样性、价值观可操纵性以及指令遵循的不同影响。

关键设计:1) 价值向量提取方法:具体提取方法未知,但应基于某种特征选择或降维技术,从残差流中提取能够代表特定价值观的特征方向。2) 价值神经元识别方法:具体识别方法未知,但应基于某种贡献度分析或激活分析,识别对价值向量有显著贡献的 MLP 神经元。3) 实验设计:设计实验来评估这两种机制对响应多样性、价值观可操纵性以及指令遵循的影响,例如通过改变提示来观察模型响应的变化,或者通过干预价值神经元来观察模型行为的变化。

🖼️ 关键图片

img_0

📊 实验亮点

研究表明,内在价值观和提示诱导价值观机制部分共享关键组件,但各自也拥有独特元素。内在机制促进词汇多样性,而提示诱导机制则加强指令遵循,甚至在越狱等任务中也有效。实验结果表明,内在价值观的响应多样性高于提示诱导价值观,而提示诱导价值观的可操纵性高于内在价值观。这些发现为理解和控制大语言模型中的价值观表达提供了新的视角。

🎯 应用场景

该研究成果可应用于价值观对齐、安全AI和可控文本生成等领域。通过理解和控制大语言模型中价值观的表达方式,可以提高AI系统的安全性、可靠性和可信度。例如,可以利用提示诱导机制来引导模型生成符合特定价值观的文本,或者通过干预内在机制来避免模型生成有害或不当的内容。该研究还有助于开发更有效的价值观对齐方法,确保AI系统与人类价值观保持一致。

📄 摘要(原文)

Large language models can express values in two main ways: (1) intrinsic expression, reflecting the model's inherent values learned during training, and (2) prompted expression, elicited by explicit prompts. Given their widespread use in value alignment, it is paramount to clearly understand their underlying mechanisms, particularly whether they mostly overlap (as one might expect) or rely on distinct mechanisms, but this remains largely understudied. We analyze this at the mechanistic level using two approaches: (1) value vectors, feature directions representing value mechanisms extracted from the residual stream, and (2) value neurons, MLP neurons that contribute to value vectors. We demonstrate that intrinsic and prompted value mechanisms partly share common components crucial for inducing value expression, generalizing across languages and reconstructing theoretical inter-value correlations in the model's internal representations. Yet, as these mechanisms also possess unique elements that fulfill distinct roles, they lead to different degrees of response diversity (intrinsic > prompted) and value steerability (prompted > intrinsic). In particular, components unique to the intrinsic mechanism promote lexical diversity in responses, whereas those specific to the prompted mechanism strengthen instruction following, taking effect even in distant tasks like jailbreaking.