Context-Value-Action Architecture for Value-Driven Large Language Model Agents

作者: TianZe Zhang, Sirui Sun, Yuhang Xie, Xin Zhang, Zhiqiang Wu, Guojie Song

分类: cs.AI, cs.HC

发布日期: 2026-04-07

备注: Accepted to Findings of the Association for Computational Linguistics: ACL 2026

💡 一句话要点

提出CVA架构，通过解耦认知推理与行为生成，提升LLM Agent的价值对齐与行为可解释性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 价值观对齐 行为建模 可解释性 价值极化 S-O-R模型 行为生成

📋 核心要点

现有LLM Agent存在行为僵化问题，且基于LLM的评估方法存在自我参照偏差，导致评估结果失真。
CVA架构基于S-O-R模型和Schwartz价值观理论，通过价值验证器解耦行为生成与认知推理，显式建模动态价值激活。
在CVABench上的实验表明，CVA能有效缓解价值极化，并显著提升行为保真度和可解释性，优于现有基线方法。

📝 摘要（中文）

大型语言模型（LLM）在模拟人类行为方面展现出潜力，但现有Agent常常表现出行为僵化，这种缺陷常被当前“LLM-as-a-judge”评估的自我参照偏差所掩盖。通过针对经验真值的评估，我们揭示了一个违反直觉的现象：增加提示驱动推理的强度并不能提高保真度，反而会加剧价值极化，导致群体多样性崩溃。为了解决这个问题，我们提出了Context-Value-Action（CVA）架构，该架构基于刺激-有机体-反应（S-O-R）模型和Schwartz的基本人类价值观理论。与依赖自我验证的方法不同，CVA通过在真实人类数据上训练的新型价值验证器，将行为生成与认知推理分离，从而显式地建模动态价值激活。在包含超过110万个真实世界交互轨迹的CVABench上的实验表明，CVA显著优于基线方法。我们的方法有效地缓解了极化，同时提供卓越的行为保真度和可解释性。

🔬 方法详解

问题定义：现有的大型语言模型Agent在模拟人类行为时，常常表现出行为僵化，缺乏灵活性和适应性。此外，使用LLM自身作为评判标准进行评估时，会产生自我参照偏差，掩盖了Agent的真实缺陷。更令人惊讶的是，增加提示词的推理强度反而会加剧价值极化，导致Agent的行为多样性降低。

核心思路：论文的核心思路是借鉴心理学中的S-O-R模型（刺激-有机体-反应）和Schwartz的基本人类价值观理论，将Agent的行为生成过程分解为Context（情境）、Value（价值观）和Action（行动）三个阶段。通过显式地建模价值观在行为决策中的作用，并使用真实的人类数据进行训练，从而提高Agent的行为保真度和可解释性，并缓解价值极化现象。

技术框架：CVA架构包含三个主要模块：Context Encoder、Value Verifier和Action Generator。Context Encoder负责将输入的情境信息编码成向量表示。Value Verifier是一个训练好的模型，用于根据情境向量和候选行动，预测该行动与Agent价值观的对齐程度。Action Generator负责根据情境向量和Value Verifier的输出，生成最终的行动。整个流程是：首先，Context Encoder将情境编码；然后，Action Generator生成多个候选行动；接着，Value Verifier评估每个候选行动与Agent价值观的对齐程度；最后，Action Generator根据Value Verifier的评分选择或生成最终行动。

关键创新：CVA架构的关键创新在于引入了Value Verifier，将行为生成与认知推理过程解耦。Value Verifier不是基于LLM自身的推理，而是基于真实的人类数据进行训练，从而避免了自我参照偏差，并能够更准确地建模动态的价值观激活过程。这种解耦使得Agent的行为更加灵活和可解释，并能够更好地与人类价值观对齐。

关键设计：Value Verifier的设计是关键。它通常是一个分类器或回归模型，输入是情境向量和候选行动的向量表示，输出是该行动与Agent价值观的对齐程度。训练Value Verifier需要大量的真实人类交互数据，包括情境、行动和人类的价值观判断。损失函数可以是交叉熵损失或均方误差损失，用于衡量Value Verifier的预测结果与真实人类判断之间的差异。具体网络结构的选择取决于数据的特点和任务的复杂度，可以使用Transformer、MLP等。

🖼️ 关键图片

📊 实验亮点

在CVABench数据集上的实验结果表明，CVA架构显著优于现有的基线方法。具体来说，CVA在行为保真度方面取得了显著提升，同时有效地缓解了价值极化现象。实验还表明，CVA架构具有更好的可解释性，能够清晰地展示Agent的价值观在行为决策中的作用。具体提升幅度未知。

🎯 应用场景

CVA架构可应用于各种需要与人类价值观对齐的LLM Agent应用场景，例如：个性化推荐系统、智能客服、教育辅导、心理咨询等。通过提高Agent的行为保真度和可解释性，可以增强用户对Agent的信任感和满意度，并促进人机协作。

📄 摘要（原文）

Large Language Models (LLMs) have shown promise in simulating human behavior, yet existing agents often exhibit behavioral rigidity, a flaw frequently masked by the self-referential bias of current "LLM-as-a-judge" evaluations. By evaluating against empirical ground truth, we reveal a counter-intuitive phenomenon: increasing the intensity of prompt-driven reasoning does not enhance fidelity but rather exacerbates value polarization, collapsing population diversity. To address this, we propose the Context-Value-Action (CVA) architecture, grounded in the Stimulus-Organism-Response (S-O-R) model and Schwartz's Theory of Basic Human Values. Unlike methods relying on self-verification, CVA decouples action generation from cognitive reasoning via a novel Value Verifier trained on authentic human data to explicitly model dynamic value activation. Experiments on CVABench, which comprises over 1.1 million real-world interaction traces, demonstrate that CVA significantly outperforms baselines. Our approach effectively mitigates polarization while offering superior behavioral fidelity and interpretability.

Context-Value-Action Architecture for Value-Driven Large Language Model Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理