Preserving Disagreement: Architectural Heterogeneity and Coherence Validation in Multi-Agent Policy Simulation
作者: Ariel Sela
分类: cs.MA, cs.AI
发布日期: 2026-04-29
备注: 14 pages, 7 tables, 120 deliberations across 2 policy scenarios
💡 一句话要点
提出AI Council框架,通过架构异构和一致性验证提升多智能体策略模拟的合理分歧。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 策略模拟 大型语言模型 架构异构 一致性验证 群体决策 政策制定
📋 核心要点
- 现有基于LLM的多智能体审议系统在策略模拟中存在人为共识问题,评估者易于收敛到相同选项,忽略了价值视角的差异。
- 提出AI Council框架,通过架构异构性(不同模型)和一致性验证(评估推理与价值观的关联)来促进合理分歧。
- 实验表明,架构异构性显著降低了选择集中度,而一致性验证存在保真度-多样性权衡,需根据场景选择性应用。
📝 摘要(中文)
本文提出了一种名为AI Council的三阶段审议框架,用于多智能体策略模拟,旨在解决现有方法中评估智能体容易达成人为共识的问题。通过在两个策略场景中进行120次审议,研究测试了两种干预措施。首先,架构异构性(为每个价值视角分配不同的7-9B参数模型)显著降低了第一选择的集中度(儿童福利:70.9%降至46.1%,p < 0.001,r = 0.58;住房:46.0%降至22.9%,p < 0.001,r = 0.50)。这与面向准确性的多智能体辩论形成对比,后者异构性不会降低收敛性,表明模型多样性在不存在客观正确答案时运作方式不同。其次,一致性验证(使用前沿模型评估每个评估者的推理是否基于其分配的价值观)揭示了保真度-多样性权衡:在具有主导选项的场景中,它进一步降低了集中度(46.1%降至40.8%,p = 0.004),但在具有真正竞争选项的场景中,它通过放大聚集在一个选项上的高一致性评估者来增加集中度(22.9%升至26.6%,p = 0.96)。这种权衡可能是采用质量加权的多智能体系统的普遍属性。文章还报告了三个失败的Delphi设计的负面结果,证明了8B模型对反驳表现出二元而非分级响应,并提出了可信张力率作为小模型审议能力的诊断指标。
🔬 方法详解
问题定义:论文旨在解决多智能体策略模拟中,使用大型语言模型(LLM)的智能体容易达成人为共识的问题。现有方法的痛点在于,即使智能体被赋予不同的价值视角,它们仍然倾向于选择相同的选项,导致模拟结果缺乏多样性和真实性。
核心思路:论文的核心解决思路是通过引入架构异构性和一致性验证来鼓励智能体之间的合理分歧。架构异构性是指为不同的智能体分配不同的LLM模型,从而引入模型层面的多样性。一致性验证则是评估每个智能体的推理过程是否与其被分配的价值观相符,确保推理的合理性。
技术框架:AI Council框架包含三个阶段:1) 初始评估:每个智能体根据其价值视角对候选策略进行独立评估。2) 审议:智能体之间进行讨论,交换意见和论据。3) 最终选择:每个智能体根据审议结果重新评估策略并做出最终选择。在审议阶段,论文引入了架构异构性和一致性验证两种干预措施。
关键创新:论文最重要的技术创新点在于将架构异构性和一致性验证应用于多智能体策略模拟,并研究它们对智能体分歧的影响。与以往关注智能体准确性的研究不同,本文关注的是智能体之间的合理分歧,即在没有客观正确答案的情况下,如何鼓励智能体表达不同的观点。
关键设计:架构异构性通过为每个智能体分配不同的7-9B参数的LLM模型来实现。一致性验证使用一个前沿模型来评估每个智能体的推理过程是否与其被分配的价值观相符。论文还设计了可信张力率作为小模型审议能力的诊断指标。此外,论文还尝试了三种失败的Delphi设计,并分析了8B模型对反驳的响应模式。
📊 实验亮点
实验结果表明,架构异构性显著降低了第一选择的集中度(儿童福利:70.9%降至46.1%,p < 0.001,r = 0.58;住房:46.0%降至22.9%,p < 0.001,r = 0.50)。一致性验证在具有主导选项的场景中进一步降低了集中度(46.1%降至40.8%,p = 0.004),但在具有真正竞争选项的场景中增加了集中度(22.9%升至26.6%,p = 0.96)。
🎯 应用场景
该研究成果可应用于政策制定、社会模拟、群体决策等领域。通过模拟不同利益相关者的观点和立场,可以帮助决策者更全面地了解问题的各个方面,并制定更合理的政策。此外,该方法还可以用于评估不同政策的潜在影响,并预测社会可能出现的反应。
📄 摘要(原文)
Multi-agent deliberation systems using large language models (LLMs) are increasingly proposed for policy simulation, yet they suffer from artificial consensus: evaluator agents converge on the same option regardless of their assigned value perspectives. We present the AI Council, a three-phase deliberation framework, and conduct 120 deliberations across two policy scenarios to test two interventions. First, architectural heterogeneity (assigning a different 7-9B parameter model to each value perspective) significantly reduces first-choice concentration compared to a homogeneous baseline (child welfare: 70.9% to 46.1%, p < 0.001, r = 0.58; housing: 46.0% to 22.9%, p < 0.001, r = 0.50). This contrasts with accuracy-oriented multi-agent debate, where heterogeneity does not reduce convergence, suggesting model diversity operates differently when no objectively correct answer exists. Second, coherence validation (using a frontier model to assess whether each evaluator's reasoning is grounded in its assigned values) reveals a fidelity-diversity tradeoff: on a scenario with a dominant option, it further reduces concentration (46.1% to 40.8%, p = 0.004), but on a scenario with genuinely competitive options, it increases concentration (22.9% to 26.6%, p = 0.96) by amplifying high-coherence evaluators who cluster on one option. This tradeoff may be a general property of multi-agent systems employing quality weighting. We report negative results from three failed Delphi designs, demonstrate that 8B models exhibit binary rather than graded responses to counter-arguments, and propose the trustworthy tension rate as a diagnostic measure of small-model deliberation capabilities.