Collective AI can amplify tiny perturbations into divergent decisions

📄 arXiv: 2603.09127 📥 PDF

作者: Hajime Shimao, Warut Khern-am-nuai, Sung Joo Kim

分类: cs.AI, cs.MA

发布日期: 2026-04-07


💡 一句话要点

集体AI决策易受微小扰动影响,导致结果发散

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 集体智能 大型语言模型 决策稳定性 扰动分析 委员会架构

📋 核心要点

  1. 现有集体AI系统被期望比单个模型更鲁棒,但实际表现可能并非如此,稳定性面临挑战。
  2. 该研究表明,多LLM迭代审议会将微小扰动放大,导致对话轨迹发散和决策差异。
  3. 实验表明,即使在确定性环境中,集体AI仍不稳定,且委员会架构会影响发散程度。

📝 摘要(中文)

大型语言模型越来越多地被部署为委员会,而非单一助手,委员会成员进行审议,然后投票或综合决策。人们通常期望这种系统比单个模型更稳健。然而,本文表明,迭代的多LLM审议反而会将微小的扰动放大为发散的对话轨迹和不同的最终决策。在一个完全确定的自托管基准测试中,精确的重运行是相同的,但对场景文本的微小、意义保持的更改仍然会随着时间的推移而分离,并且经常改变最终的建议。在已部署的黑盒API系统中,名义上相同的委员会运行同样保持不稳定,即使在温度为0时也是如此,许多用户期望接近确定性。在12个策略场景中,这些发现表明,集体AI的不稳定性不仅是平台端剩余随机性的结果,而且可能源于重复交互下对附近初始条件的敏感性。额外的已部署实验表明,委员会架构调节了这种不稳定性:角色结构、模型组成和反馈记忆都可以改变发散的程度。因此,集体AI面临着一个稳定性问题,而不仅仅是一个准确性问题:确定性执行本身并不能保证可预测或可审计的审议结果。

🔬 方法详解

问题定义:现有集体AI系统,如多LLM委员会,被期望通过集体智慧提高决策的鲁棒性。然而,实际应用中,即使是很小的输入扰动,也可能导致最终决策的显著差异,这与人们对集体AI稳定性的预期不符。现有方法缺乏对这种不稳定性的深入分析和有效控制手段。

核心思路:该研究的核心思路是揭示集体AI系统中,微小扰动如何通过迭代交互被放大,最终导致决策发散。通过实验分析不同委员会架构对这种不稳定性的影响,从而为设计更稳定的集体AI系统提供指导。

技术框架:该研究采用实验方法,构建了自托管和已部署的黑盒API两种环境。在自托管环境中,通过控制变量,研究微小扰动对确定性执行的影响。在已部署的黑盒API环境中,评估实际应用场景下的系统稳定性。实验涉及12个策略场景,并分析了角色结构、模型组成和反馈记忆等因素对决策发散的影响。

关键创新:该研究最重要的创新点在于揭示了集体AI系统对微小扰动的敏感性,并指出这种敏感性并非仅仅源于平台端的随机性,而是由重复交互本身引起的。此外,该研究还发现委员会架构(如角色结构、模型组成和反馈记忆)可以调节这种不稳定性。

关键设计:实验中,研究人员通过对场景文本进行微小的、意义保持的更改来引入扰动。在自托管环境中,通过精确控制模型和参数,实现确定性执行,从而排除随机因素的干扰。在已部署的黑盒API环境中,使用温度为0的设置,以期望获得接近确定性的结果。通过对比不同委员会架构下的决策发散程度,分析各因素的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究表明,即使在温度为0的黑盒API系统中,名义上相同的委员会运行仍然不稳定。在12个策略场景中,集体AI的不稳定性不仅是平台端剩余随机性的结果,而且可能源于重复交互下对附近初始条件的敏感性。委员会架构,如角色结构、模型组成和反馈记忆,可以改变发散的程度。

🎯 应用场景

该研究成果可应用于需要高度稳定性和可预测性的决策场景,例如医疗诊断、金融风险评估、法律咨询等。通过优化集体AI的架构和交互方式,可以降低微小扰动对决策结果的影响,提高系统的可靠性和可信度。未来的研究可以探索更有效的稳定化策略,例如引入鲁棒性训练方法或设计更合理的反馈机制。

📄 摘要(原文)

Large language models are increasingly deployed not as single assistants but as committees whose members deliberate and then vote or synthesize a decision. Such systems are often expected to be more robust than individual models. We show that iterative multi-LLM deliberation can instead amplify tiny perturbations into divergent conversational trajectories and different final decisions. In a fully deterministic self-hosted benchmark, exact reruns are identical, yet small meaning-preserving changes to the scenario text still separate over time and often alter the final recommendation. In deployed black-box API systems, nominally identical committee runs likewise remain unstable even at temperature 0, where many users expect near-determinism. Across 12 policy scenarios, these findings indicate that instability in collective AI is not only a consequence of residual platform-side stochasticity, but can arise from sensitivity to nearby initial conditions under repeated interaction itself. Additional deployed experiments show that committee architecture modulates this instability: role structure, model composition, and feedback memory can each alter the degree of divergence. Collective AI therefore faces a stability problem, not only an accuracy problem: deterministic execution alone does not guarantee predictable or auditable deliberative outcomes.