CortexDebate: Debating Sparsely and Equally for Multi-Agent Debate

📄 arXiv: 2507.03928v1 📥 PDF

作者: Yiliu Sun, Zicheng Zhao, Sheng Wan, Chen Gong

分类: cs.AI, cs.MA

发布日期: 2025-07-05

备注: Accepted by ACL 2025


💡 一句话要点

CortexDebate:面向多智能体辩论的稀疏且均衡的辩论方法

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体辩论 大型语言模型 稀疏图 信任评估 麦肯锡信任公式

📋 核心要点

  1. 现有MAD方法面临输入上下文过长和智能体过度自信两大挑战,导致性能下降和辩论效果不佳。
  2. CortexDebate借鉴人脑皮层连接机制,构建稀疏辩论图,使智能体仅与有益的智能体辩论,优化辩论结构。
  3. 实验结果表明,CortexDebate在多个数据集上表现出显著的有效性,验证了其在多智能体辩论中的优势。

📝 摘要(中文)

当前,单个大型语言模型(LLM)在幻觉和推理能力不足等关键问题上表现挣扎。为了缓解这些问题,多智能体辩论(MAD)作为一种有效的策略应运而生,其中LLM智能体就任务与其他智能体进行深入辩论。然而,现有的MAD方法面临两个主要问题:(a)输入上下文过长,导致LLM智能体迷失在大量输入信息中,并出现性能下降;(b)过度自信的困境,即过于自信的LLM智能体主导辩论,导致辩论效果低下。为了解决这些限制,我们提出了一种名为“CortexDebate”的新型MAD方法。受到人脑在白质控制下于皮质区域之间建立稀疏且动态优化的网络的启发,CortexDebate构建了一个LLM智能体之间的稀疏辩论图,其中每个LLM智能体仅与对其有帮助的智能体进行辩论。为了优化该图,我们提出了一个名为“基于麦肯锡的辩论物质(MDM)”的模块,该模块充当白质的人工模拟。通过整合麦肯锡信任公式(一种来自社会学的成熟的信任度量),MDM能够进行可信的评估,从而指导图优化。我们的CortexDebate的有效性已通过来自四种任务类型的八个数据集上的大量实验结果得到了充分证明。

🔬 方法详解

问题定义:现有的多智能体辩论方法存在两个主要问题。一是输入上下文过长,导致LLM智能体难以有效处理大量信息,从而影响性能。二是部分LLM智能体过度自信,在辩论中占据主导地位,使得辩论过程不均衡,最终影响辩论效果。因此,需要一种能够有效管理信息并促进均衡辩论的方法。

核心思路:CortexDebate的核心思路是借鉴人脑皮层区域间通过白质建立稀疏连接的机制。通过构建一个稀疏的辩论图,每个LLM智能体只与对其有帮助的智能体进行辩论,从而减少输入信息的冗余,并避免过度自信的智能体主导辩论。这种稀疏连接的方式能够更有效地利用LLM智能体的计算资源,并促进更有效的辩论。

技术框架:CortexDebate的整体框架包括以下几个主要模块:1) LLM智能体:负责生成辩论内容并参与辩论;2) 稀疏辩论图:定义了智能体之间的辩论关系,每个智能体只与部分其他智能体连接;3) 基于麦肯锡的辩论物质(MDM):用于评估智能体之间的信任关系,并指导辩论图的优化。MDM模块基于麦肯锡信任公式,对智能体之间的可信度进行评估,并根据评估结果调整辩论图的连接。

关键创新:CortexDebate的关键创新在于引入了稀疏辩论图和基于麦肯锡的辩论物质(MDM)。稀疏辩论图能够减少输入信息的冗余,并促进更有效的辩论。MDM模块能够对智能体之间的信任关系进行评估,并根据评估结果优化辩论图的连接,从而提高辩论的质量和效率。与现有方法相比,CortexDebate能够更有效地管理信息,并促进更均衡的辩论。

关键设计:MDM模块的关键设计在于采用了麦肯锡信任公式来评估智能体之间的信任关系。该公式考虑了多个因素,如智能体的能力、可靠性和亲和力。通过对这些因素进行加权平均,可以得到一个综合的信任度量。此外,CortexDebate还采用了动态图优化算法,根据MDM模块的评估结果,不断调整辩论图的连接,以提高辩论的质量和效率。具体的参数设置和损失函数等技术细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CortexDebate在八个数据集上均取得了显著的性能提升。例如,在XSum数据集上,CortexDebate相比基线方法提升了约5%。此外,CortexDebate还能够有效地缓解过度自信的问题,使得辩论过程更加均衡。这些结果充分验证了CortexDebate在多智能体辩论中的有效性。

🎯 应用场景

CortexDebate具有广泛的应用前景,可应用于需要多智能体协作的复杂决策场景,如自动驾驶、金融风险评估、医疗诊断等。通过构建有效的辩论机制,可以提高决策的准确性和可靠性,并减少人为偏见的影响。未来,该方法有望应用于更广泛的人工智能领域,促进人机协作和智能决策的发展。

📄 摘要(原文)

Nowadays, single Large Language Model (LLM) struggles with critical issues such as hallucination and inadequate reasoning abilities. To mitigate these issues, Multi-Agent Debate (MAD) has emerged as an effective strategy, where LLM agents engage in in-depth debates with others on tasks. However, existing MAD methods face two major issues: (a) too lengthy input contexts, which causes LLM agents to get lost in plenty of input information and experiences performance drop; and (b) the overconfidence dilemma, where self-assured LLM agents dominate the debate, leading to low debating effectiveness. To address these limitations, we propose a novel MAD method called "CortexDebate". Inspired by the human brain's tendency to establish a sparse and dynamically optimized network among cortical areas governed by white matter, CortexDebate constructs a sparse debating graph among LLM agents, where each LLM agent only debates with the ones that are helpful to it. To optimize the graph, we propose a module named McKinsey-based Debate Matter (MDM), which acts as an artificial analog to white matter. By integrating the McKinsey Trust Formula, a well-established measure of trustworthiness from sociology, MDM enables credible evaluations that guide graph optimization. The effectiveness of our CortexDebate has been well demonstrated by extensive experimental results across eight datasets from four task types.