Framing Matters: Addressing Framing Sensitivity in Decision-Making through Behaviorally-Grounded Value Alignment

作者: Seojin Hwang, Minju Kim, Junhyuk Choi, JeongHyun Park, Hwanhee Lee

分类: cs.CL

发布日期: 2026-05-27

备注: 29 pages, 7 figures, 31 tables

💡 一句话要点

提出Valign方法，通过行为价值对齐解决大语言模型决策中的框架敏感性问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 框架效应 价值对齐 大语言模型 决策一致性 表示学习

📋 核心要点

现有大语言模型在决策时易受框架效应影响，即使输入信息在语义上等价，不同的表达方式也会导致决策结果不一致。
论文提出Valign方法，通过价值对齐，稳定模型内部表征，从而减少框架效应带来的决策偏差。
实验表明，Valign方法能有效降低框架诱导的决策翻转率，验证了直接干预模型内部机制的有效性。

📝 摘要（中文）

大型语言模型(LLMs)越来越多地被部署在法律推理等高风险决策环境中，在这些环境中，事实等价输入下的一致性至关重要。然而，我们发现，在事实保持不变但框架不同的输入会显著地破坏LLM的决策。为了系统地研究这个问题，我们引入了Fragile，这是一个大规模的基准，它隔离了跨三个受控维度的事实保持语义框架：价值着色的叙述、时间切片和叙述的生动性。我们的实验表明，LLM对框架具有高度的敏感性，平均决策翻转率为28.6%。我们发现，简单的先验提示级别和激活级别干预不仅未能抑制框架敏感性，反而积极地放大了它。因此，我们提出Valign，一种表示级别的方法，它通过将决策锚定到稳定的价值先验，引导隐藏状态朝着模型价值一致的方向，并从模型的隐藏状态中投射出时间-生动性敏感的方向，从而显式地针对这些框架维度。Valign始终如一地减少了框架引起的决策翻转，表明稳健的缓解需要直接针对框架运行的内部路径。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在决策过程中存在的框架敏感性问题。即使输入的事实信息相同，仅仅改变叙述方式（例如，价值倾向、时间切片、叙述生动性）也会导致LLM做出不同的决策。这种不一致性在高风险决策场景（如法律推理）中是不可接受的。现有方法，如提示工程或激活干预，无法有效解决这个问题，甚至可能加剧框架效应。

核心思路：Valign的核心思路是通过行为价值对齐来稳定LLM的内部表征，从而减少框架效应的影响。具体来说，Valign方法试图将LLM的决策锚定到一个稳定的价值先验上，并引导隐藏状态朝着模型价值一致的方向发展。此外，Valign还尝试从隐藏状态中移除那些对时间-生动性敏感的方向，从而减少这些因素对决策的影响。

技术框架：Valign方法主要包含三个关键步骤：1) 价值锚定：利用一个价值先验来指导决策，确保决策与预期的价值取向一致。2) 隐藏状态引导：通过某种机制（具体细节未知）引导LLM的隐藏状态朝着价值一致的方向发展，从而减少框架效应的影响。3) 时间-生动性投射：从隐藏状态中移除那些对时间切片和叙述生动性敏感的方向，从而进一步减少框架效应的影响。整体流程是在LLM的推理过程中，对隐藏状态进行干预，以实现价值对齐和框架敏感性抑制。

关键创新：Valign的关键创新在于它直接针对LLM的内部表征进行干预，而不是仅仅依赖于提示工程或激活干预等外部方法。通过价值锚定、隐藏状态引导和时间-生动性投射，Valign能够更有效地减少框架效应，提高LLM决策的稳定性和一致性。与现有方法相比，Valign更深入地理解了框架效应的内在机制，并提出了更有针对性的解决方案。

关键设计：论文中提到Valign是一种表示级别的方法，但具体的参数设置、损失函数、网络结构等技术细节并未详细描述。价值先验如何构建？隐藏状态如何引导？时间-生动性敏感方向如何识别和投射？这些都是Valign方法中的关键设计问题，需要在论文中进一步阐述。目前这些细节未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Valign方法能够显著降低框架诱导的决策翻转率。相比于简单的提示级别和激活级别干预，Valign能够更有效地稳定LLM的决策。具体的性能数据和对比基线需要在论文中进一步提供，以便更全面地评估Valign的有效性。平均决策翻转率从28.6%降低到多少，是评价Valign效果的关键指标。

🎯 应用场景

Valign方法具有广泛的应用前景，尤其是在需要高度一致性和稳定性的决策场景中，例如法律推理、医疗诊断、金融风险评估等。通过减少框架效应的影响，Valign可以提高决策的公平性和可靠性，避免因叙述方式不同而导致的不公正结果。未来，Valign可以与其他技术相结合，构建更值得信赖的人工智能系统。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly deployed in high-stakes decision-making settings such as legal reasoning, where consistency under factually equivalent inputs is critical. However, we find that fact-preserved but differently framed inputs can significantly destabilize LLM decisions. To systematically investigate this problem, we introduce Fragile, a large-scale benchmark that isolates fact-preserving semantic framing across three controlled dimensions: value-tinted narration, temporal slice, and narrative vividness. Our experiments reveal a high susceptibility of LLMs to framing, with an average decision flip rate of 28.6%. We find that simple prior prompt-level and activation-level interventions not only fail to suppress framing sensitivity but actively amplify it. We therefore propose Valign, a representation-level method that explicitly targets these framing dimensions by anchoring decisions to a stable value prior, steering hidden states toward the model's value-consistent direction, and projecting out temporal-vividness-sensitive directions from the model's hidden states. Valign consistently reduces framing-induced decision flips, demonstrating that robust mitigation requires directly targeting the internal pathways in which framing operates.

Framing Matters: Addressing Framing Sensitivity in Decision-Making through Behaviorally-Grounded Value Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理