ValueFlow: Measuring the Propagation of Value Perturbations in Multi-Agent LLM Systems
作者: Jinnuo Liu, Chuke Liu, Hua Shen
分类: cs.MA, cs.CL
发布日期: 2026-02-09
备注: Preprint. Under review. 18 pages, 9 figures
💡 一句话要点
ValueFlow:用于评估多智能体LLM系统中价值扰动传播的框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 大型语言模型 价值对齐 价值漂移 扰动分析
📋 核心要点
- 现有方法缺乏对多智能体LLM系统中价值扰动传播的有效评估手段,难以保证系统整体的价值对齐。
- ValueFlow框架通过引入价值扰动,并结合LLM-as-a-judge协议,量化智能体在交互中的价值取向,从而分析价值漂移。
- 实验结果表明,智能体对不同价值的敏感性差异显著,且系统结构拓扑对价值传播具有重要影响。
📝 摘要(中文)
多智能体大型语言模型(LLM)系统越来越多地由相互观察和响应彼此输出的智能体组成。虽然价值对齐通常针对孤立的模型进行评估,但价值扰动如何在智能体交互中传播仍然知之甚少。我们提出了ValueFlow,这是一个基于扰动的评估框架,用于测量和分析多智能体系统中的价值漂移。ValueFlow引入了一个从Schwartz价值调查中导出的包含56个价值的评估数据集,并使用LLM-as-a-judge协议量化智能体在交互过程中的价值取向。在此测量层的基础上,ValueFlow将价值漂移分解为智能体层面的响应行为和系统层面的结构效应,并通过两个指标进行操作化:beta-susceptibility,用于测量智能体对受扰动的同伴信号的敏感性;以及系统敏感性(SS),用于捕获节点层面的扰动如何影响最终的系统输出。跨多个模型骨干、提示角色、价值维度和网络结构的实验表明,敏感性在不同价值之间差异很大,并且受到结构拓扑的强烈影响。
🔬 方法详解
问题定义:论文旨在解决多智能体LLM系统中价值扰动传播难以量化和分析的问题。现有方法主要关注单个模型的价值对齐,忽略了智能体之间交互对价值的影响,缺乏对系统整体价值漂移的有效评估手段。
核心思路:论文的核心思路是通过引入价值扰动,观察智能体对这些扰动的响应,从而量化智能体的价值取向和系统整体的价值漂移。通过分析智能体层面的响应行为和系统层面的结构效应,揭示价值扰动在系统中的传播机制。
技术框架:ValueFlow框架包含以下主要模块:1) 价值评估数据集:基于Schwartz价值调查构建包含56个价值的评估数据集。2) LLM-as-a-judge协议:利用LLM作为裁判,量化智能体在交互过程中的价值取向。3) 价值漂移分解:将价值漂移分解为智能体层面的beta-susceptibility(对同伴信号的敏感性)和系统层面的系统敏感性(SS,节点扰动对系统输出的影响)。
关键创新:ValueFlow的关键创新在于提出了一个基于扰动的评估框架,能够量化和分析多智能体LLM系统中的价值漂移。通过分解价值漂移,揭示了智能体响应行为和系统结构对价值传播的影响。此外,利用LLM作为裁判进行价值评估,避免了人工标注的成本。
关键设计:ValueFlow的关键设计包括:1) Schwartz价值调查数据集的选择,保证了价值评估的全面性和可靠性。2) beta-susceptibility和系统敏感性(SS)两个指标的设计,能够有效量化智能体层面的响应行为和系统层面的结构效应。3) LLM-as-a-judge协议的具体实现,包括提示工程和评估指标的设计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,智能体对不同价值的敏感性差异显著,例如,某些智能体对“权力”价值的扰动更敏感,而另一些智能体则对“普遍主义”价值的扰动更敏感。此外,系统结构拓扑对价值传播具有重要影响,例如,中心化网络更容易受到中心节点价值扰动的影响。这些发现为多智能体系统的价值对齐提供了重要的指导。
🎯 应用场景
ValueFlow可应用于多智能体协作系统的设计与优化,例如智能客服、协同创作、决策支持等领域。通过评估和优化系统的价值对齐,可以提高系统的可靠性、公平性和安全性,避免潜在的伦理风险。该研究有助于构建更加负责任和可信赖的人工智能系统。
📄 摘要(原文)
Multi-agent large language model (LLM) systems increasingly consist of agents that observe and respond to one another's outputs. While value alignment is typically evaluated for isolated models, how value perturbations propagate through agent interactions remains poorly understood. We present ValueFlow, a perturbation-based evaluation framework for measuring and analyzing value drift in multi-agent systems. ValueFlow introduces a 56-value evaluation dataset derived from the Schwartz Value Survey and quantifies agents' value orientations during interaction using an LLM-as-a-judge protocol. Building on this measurement layer, ValueFlow decomposes value drift into agent-level response behavior and system-level structural effects, operationalized by two metrics: beta-susceptibility, which measures an agent's sensitivity to perturbed peer signals, and system susceptibility (SS), which captures how node-level perturbations affect final system outputs. Experiments across multiple model backbones, prompt personas, value dimensions, and network structures show that susceptibility varies widely across values and is strongly shaped by structural topology.