Context-Value-Action Architecture for Value-Driven Large Language Model Agents

📄 arXiv: 2604.05939v1 📥 PDF

作者: TianZe Zhang, Sirui Sun, Yuhang Xie, Xin Zhang, Zhiqiang Wu, Guojie Song

分类: cs.AI, cs.HC

发布日期: 2026-04-07

备注: Accepted to Findings of the Association for Computational Linguistics: ACL 2026


💡 一句话要点

提出CVA架构,通过解耦认知推理与行为生成,提升LLM Agent的价值对齐与行为可解释性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 价值观对齐 行为建模 可解释性 价值极化 S-O-R模型 行为生成

📋 核心要点

  1. 现有LLM Agent存在行为僵化问题,且基于LLM的评估方法存在自我参照偏差,导致评估结果失真。
  2. CVA架构基于S-O-R模型和Schwartz价值观理论,通过价值验证器解耦行为生成与认知推理,显式建模动态价值激活。
  3. 在CVABench上的实验表明,CVA能有效缓解价值极化,并显著提升行为保真度和可解释性,优于现有基线方法。

📝 摘要(中文)

大型语言模型(LLM)在模拟人类行为方面展现出潜力,但现有Agent常常表现出行为僵化,这种缺陷常被当前“LLM-as-a-judge”评估的自我参照偏差所掩盖。通过针对经验真值的评估,我们揭示了一个违反直觉的现象:增加提示驱动推理的强度并不能提高保真度,反而会加剧价值极化,导致群体多样性崩溃。为了解决这个问题,我们提出了Context-Value-Action(CVA)架构,该架构基于刺激-有机体-反应(S-O-R)模型和Schwartz的基本人类价值观理论。与依赖自我验证的方法不同,CVA通过在真实人类数据上训练的新型价值验证器,将行为生成与认知推理分离,从而显式地建模动态价值激活。在包含超过110万个真实世界交互轨迹的CVABench上的实验表明,CVA显著优于基线方法。我们的方法有效地缓解了极化,同时提供卓越的行为保真度和可解释性。

🔬 方法详解

问题定义:现有的大型语言模型Agent在模拟人类行为时,常常表现出行为僵化,缺乏灵活性和适应性。此外,使用LLM自身作为评判标准进行评估时,会产生自我参照偏差,掩盖了Agent的真实缺陷。更令人惊讶的是,增加提示词的推理强度反而会加剧价值极化,导致Agent的行为多样性降低。

核心思路:论文的核心思路是借鉴心理学中的S-O-R模型(刺激-有机体-反应)和Schwartz的基本人类价值观理论,将Agent的行为生成过程分解为Context(情境)、Value(价值观)和Action(行动)三个阶段。通过显式地建模价值观在行为决策中的作用,并使用真实的人类数据进行训练,从而提高Agent的行为保真度和可解释性,并缓解价值极化现象。

技术框架:CVA架构包含三个主要模块:Context Encoder、Value Verifier和Action Generator。Context Encoder负责将输入的情境信息编码成向量表示。Value Verifier是一个训练好的模型,用于根据情境向量和候选行动,预测该行动与Agent价值观的对齐程度。Action Generator负责根据情境向量和Value Verifier的输出,生成最终的行动。整个流程是:首先,Context Encoder将情境编码;然后,Action Generator生成多个候选行动;接着,Value Verifier评估每个候选行动与Agent价值观的对齐程度;最后,Action Generator根据Value Verifier的评分选择或生成最终行动。

关键创新:CVA架构的关键创新在于引入了Value Verifier,将行为生成与认知推理过程解耦。Value Verifier不是基于LLM自身的推理,而是基于真实的人类数据进行训练,从而避免了自我参照偏差,并能够更准确地建模动态的价值观激活过程。这种解耦使得Agent的行为更加灵活和可解释,并能够更好地与人类价值观对齐。

关键设计:Value Verifier的设计是关键。它通常是一个分类器或回归模型,输入是情境向量和候选行动的向量表示,输出是该行动与Agent价值观的对齐程度。训练Value Verifier需要大量的真实人类交互数据,包括情境、行动和人类的价值观判断。损失函数可以是交叉熵损失或均方误差损失,用于衡量Value Verifier的预测结果与真实人类判断之间的差异。具体网络结构的选择取决于数据的特点和任务的复杂度,可以使用Transformer、MLP等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在CVABench数据集上的实验结果表明,CVA架构显著优于现有的基线方法。具体来说,CVA在行为保真度方面取得了显著提升,同时有效地缓解了价值极化现象。实验还表明,CVA架构具有更好的可解释性,能够清晰地展示Agent的价值观在行为决策中的作用。具体提升幅度未知。

🎯 应用场景

CVA架构可应用于各种需要与人类价值观对齐的LLM Agent应用场景,例如:个性化推荐系统、智能客服、教育辅导、心理咨询等。通过提高Agent的行为保真度和可解释性,可以增强用户对Agent的信任感和满意度,并促进人机协作。

📄 摘要(原文)

Large Language Models (LLMs) have shown promise in simulating human behavior, yet existing agents often exhibit behavioral rigidity, a flaw frequently masked by the self-referential bias of current "LLM-as-a-judge" evaluations. By evaluating against empirical ground truth, we reveal a counter-intuitive phenomenon: increasing the intensity of prompt-driven reasoning does not enhance fidelity but rather exacerbates value polarization, collapsing population diversity. To address this, we propose the Context-Value-Action (CVA) architecture, grounded in the Stimulus-Organism-Response (S-O-R) model and Schwartz's Theory of Basic Human Values. Unlike methods relying on self-verification, CVA decouples action generation from cognitive reasoning via a novel Value Verifier trained on authentic human data to explicitly model dynamic value activation. Experiments on CVABench, which comprises over 1.1 million real-world interaction traces, demonstrate that CVA significantly outperforms baselines. Our approach effectively mitigates polarization while offering superior behavioral fidelity and interpretability.