Framing Matters: Addressing Framing Sensitivity in Decision-Making through Behaviorally-Grounded Value Alignment
作者: Seojin Hwang, Minju Kim, Junhyuk Choi, JeongHyun Park, Hwanhee Lee
分类: cs.CL
发布日期: 2026-05-27
备注: 29 pages, 7 figures, 31 tables
💡 一句话要点
提出Valign方法,通过行为价值对齐解决大语言模型决策中的框架敏感性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 框架效应 价值对齐 大语言模型 决策一致性 表示学习
📋 核心要点
- 现有大语言模型在决策时易受框架效应影响,即使输入信息在语义上等价,不同的表达方式也会导致决策结果不一致。
- 论文提出Valign方法,通过价值对齐,稳定模型内部表征,从而减少框架效应带来的决策偏差。
- 实验表明,Valign方法能有效降低框架诱导的决策翻转率,验证了直接干预模型内部机制的有效性。
📝 摘要(中文)
大型语言模型(LLMs)越来越多地被部署在法律推理等高风险决策环境中,在这些环境中,事实等价输入下的一致性至关重要。然而,我们发现,在事实保持不变但框架不同的输入会显著地破坏LLM的决策。为了系统地研究这个问题,我们引入了Fragile,这是一个大规模的基准,它隔离了跨三个受控维度的事实保持语义框架:价值着色的叙述、时间切片和叙述的生动性。我们的实验表明,LLM对框架具有高度的敏感性,平均决策翻转率为28.6%。我们发现,简单的先验提示级别和激活级别干预不仅未能抑制框架敏感性,反而积极地放大了它。因此,我们提出Valign,一种表示级别的方法,它通过将决策锚定到稳定的价值先验,引导隐藏状态朝着模型价值一致的方向,并从模型的隐藏状态中投射出时间-生动性敏感的方向,从而显式地针对这些框架维度。Valign始终如一地减少了框架引起的决策翻转,表明稳健的缓解需要直接针对框架运行的内部路径。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在决策过程中存在的框架敏感性问题。即使输入的事实信息相同,仅仅改变叙述方式(例如,价值倾向、时间切片、叙述生动性)也会导致LLM做出不同的决策。这种不一致性在高风险决策场景(如法律推理)中是不可接受的。现有方法,如提示工程或激活干预,无法有效解决这个问题,甚至可能加剧框架效应。
核心思路:Valign的核心思路是通过行为价值对齐来稳定LLM的内部表征,从而减少框架效应的影响。具体来说,Valign方法试图将LLM的决策锚定到一个稳定的价值先验上,并引导隐藏状态朝着模型价值一致的方向发展。此外,Valign还尝试从隐藏状态中移除那些对时间-生动性敏感的方向,从而减少这些因素对决策的影响。
技术框架:Valign方法主要包含三个关键步骤:1) 价值锚定:利用一个价值先验来指导决策,确保决策与预期的价值取向一致。2) 隐藏状态引导:通过某种机制(具体细节未知)引导LLM的隐藏状态朝着价值一致的方向发展,从而减少框架效应的影响。3) 时间-生动性投射:从隐藏状态中移除那些对时间切片和叙述生动性敏感的方向,从而进一步减少框架效应的影响。整体流程是在LLM的推理过程中,对隐藏状态进行干预,以实现价值对齐和框架敏感性抑制。
关键创新:Valign的关键创新在于它直接针对LLM的内部表征进行干预,而不是仅仅依赖于提示工程或激活干预等外部方法。通过价值锚定、隐藏状态引导和时间-生动性投射,Valign能够更有效地减少框架效应,提高LLM决策的稳定性和一致性。与现有方法相比,Valign更深入地理解了框架效应的内在机制,并提出了更有针对性的解决方案。
关键设计:论文中提到Valign是一种表示级别的方法,但具体的参数设置、损失函数、网络结构等技术细节并未详细描述。价值先验如何构建?隐藏状态如何引导?时间-生动性敏感方向如何识别和投射?这些都是Valign方法中的关键设计问题,需要在论文中进一步阐述。目前这些细节未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Valign方法能够显著降低框架诱导的决策翻转率。相比于简单的提示级别和激活级别干预,Valign能够更有效地稳定LLM的决策。具体的性能数据和对比基线需要在论文中进一步提供,以便更全面地评估Valign的有效性。平均决策翻转率从28.6%降低到多少,是评价Valign效果的关键指标。
🎯 应用场景
Valign方法具有广泛的应用前景,尤其是在需要高度一致性和稳定性的决策场景中,例如法律推理、医疗诊断、金融风险评估等。通过减少框架效应的影响,Valign可以提高决策的公平性和可靠性,避免因叙述方式不同而导致的不公正结果。未来,Valign可以与其他技术相结合,构建更值得信赖的人工智能系统。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly deployed in high-stakes decision-making settings such as legal reasoning, where consistency under factually equivalent inputs is critical. However, we find that fact-preserved but differently framed inputs can significantly destabilize LLM decisions. To systematically investigate this problem, we introduce Fragile, a large-scale benchmark that isolates fact-preserving semantic framing across three controlled dimensions: value-tinted narration, temporal slice, and narrative vividness. Our experiments reveal a high susceptibility of LLMs to framing, with an average decision flip rate of 28.6%. We find that simple prior prompt-level and activation-level interventions not only fail to suppress framing sensitivity but actively amplify it. We therefore propose Valign, a representation-level method that explicitly targets these framing dimensions by anchoring decisions to a stable value prior, steering hidden states toward the model's value-consistent direction, and projecting out temporal-vividness-sensitive directions from the model's hidden states. Valign consistently reduces framing-induced decision flips, demonstrating that robust mitigation requires directly targeting the internal pathways in which framing operates.