Representational Collapse in Multi-Agent LLM Committees: Measurement and Diversity-Aware Consensus

📄 arXiv: 2604.03809 📥 PDF

作者: Dipkumar Patel

分类: cs.LG, cs.AI, cs.MA

发布日期: 2026-04-07


💡 一句话要点

提出DALC协议以解决多智能体LLM委员会的表征崩溃问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 自然语言处理 共识协议 表征崩溃 嵌入几何 多样性加权 机器学习

📋 核心要点

  1. 现有多智能体LLM委员会假设智能体间提供互补证据,但实际存在表征崩溃现象,导致输出相似性过高。
  2. 本文提出DALC协议,通过嵌入几何计算多样性权重,旨在提高多智能体共识的有效性和准确性。
  3. 实验结果显示,DALC在GSM8K任务上达到87%的准确率,相比传统方法提高了3%,且降低了26%的令牌成本。

📝 摘要(中文)

多智能体LLM委员会在不同角色提示下复制相同模型并通过多数投票聚合输出,隐含假设智能体提供互补证据。本文通过嵌入每个智能体的思维链推理并测量成对相似性,发现三名Qwen2.5-14B智能体在100个GSM8K问题上的平均余弦相似度为0.888,有效秩为2.17,称之为表征崩溃。提出的DALC共识协议通过嵌入几何计算多样性权重,在GSM8K上达到87%的准确率,相比自一致性提高84%,且令令牌成本降低26%。消融实验表明,提示共享的贡献大于单纯的多样性加权,且编码器选择显著影响崩溃严重性和下游准确性。

🔬 方法详解

问题定义:本文旨在解决多智能体LLM委员会中的表征崩溃问题,即智能体输出过于相似,无法提供有效的互补证据。现有方法未能有效应对这一挑战,导致共识结果的准确性下降。

核心思路:提出DALC共识协议,通过嵌入几何计算多样性权重,增强智能体间的多样性,从而提高共识的准确性和有效性。该方法不依赖于额外的训练过程,简化了实现。

技术框架:整体架构包括智能体的输出嵌入、相似性测量、以及多样性权重计算。首先,收集智能体的输出并进行嵌入,然后计算成对相似性,最后基于相似性调整投票权重,以实现更有效的共识。

关键创新:最重要的创新在于引入了多样性权重计算机制,显著改善了智能体间的输出多样性,避免了表征崩溃的现象。这一设计与传统的简单多数投票方法有本质区别。

关键设计:在实验中,选择了不同的编码器以评估其对崩溃严重性的影响,发现不同编码器的余弦相似度差异显著(如mxbai与nomic的比较)。此外,消融实验表明,提示共享的贡献大于单纯的多样性加权。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果显示,DALC协议在GSM8K任务上达到了87%的准确率,相比自一致性方法提高了3%。此外,DALC在令牌成本上降低了26%,显示出其在资源利用上的优势。

🎯 应用场景

该研究的潜在应用领域包括多智能体系统、自然语言处理和智能决策支持系统。通过提高智能体间的共识准确性,DALC协议可在复杂任务中提升系统的整体性能,具有广泛的实际价值和未来影响力。

📄 摘要(原文)

Multi-agent LLM committees replicate the same model under different role prompts and aggregate outputs by majority vote, implicitly assuming that agents contribute complementary evidence. We embed each agent's chain-of-thought rationale and measure pairwise similarity: across 100 GSM8K questions with three Qwen2.5-14B agents, mean cosine similarity is 0.888 and effective rank is 2.17 out of 3.0, a failure mode we term representational collapse. DALC, a training-free consensus protocol that computes diversity weights from embedding geometry, reaches 87% on GSM8K versus 84% for self-consistency at 26% lower token cost. Ablation experiments reveal 1-3 point per-protocol run-to-run variance, confirm that hint sharing contributes more than diversity weighting alone, and show that encoder choice strongly modulates collapse severity (cosine 0.908 with mxbai versus 0.888 with nomic) and downstream accuracy. The more robust finding is that collapse is measurable, worsens on harder tasks, and that the choice of embedding proxy is a first-order design decision for any latent communication protocol.