Multi-Agent Debate for LLM Judges with Adaptive Stability Detection

📄 arXiv: 2510.12697v1 📥 PDF

作者: Tianyu Hu, Zhen Tan, Song Wang, Huaizhi Qu, Tianlong Chen

分类: cs.AI

发布日期: 2025-10-14


💡 一句话要点

提出基于多智能体辩论的LLM评判框架,提升评判准确性和效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体系统 大型语言模型 自动化评判 辩论框架 稳定性检测 Kolmogorov-Smirnov检验 Beta-二项分布 协同推理

📋 核心要点

  1. 现有LLM评判方法依赖简单聚合,易出错且无法充分利用个体智能体的正确答案。
  2. 提出多智能体辩论框架,通过协同推理和迭代优化提升评判的正确性。
  3. 引入稳定性检测机制,基于KS检验自适应停止辩论,提高计算效率并保证准确性。

📝 摘要(中文)

随着推理能力的进步,大型语言模型(LLM)越来越多地被用于自动化评判任务。尽管LLM作为评判者在自动化评估方面展现出潜力,但当前的方法通常依赖于简单的聚合方法(例如,多数投票),即使单个智能体提供了正确的答案,也可能失败。为了解决这个问题,我们提出了一个多智能体辩论评判框架,其中智能体协同推理并迭代地改进他们的回答。我们用数学方法形式化了辩论过程,分析了智能体之间的交互,并证明了辩论相比于静态集成可以提高正确性。为了提高效率,我们引入了一种稳定性检测机制,该机制通过时变Beta-二项混合模型来模拟评判者共识动态,并基于分布相似性(Kolmogorov-Smirnov检验)进行自适应停止。该机制使用时变Beta-二项分布混合模型来模拟评判者的集体正确率动态,并采用基于分布相似性(Kolmogorov-Smirnov统计量)的自适应停止准则。在多个基准和模型上的实验表明,我们的框架在保持计算效率的同时,提高了相对于多数投票的评判准确性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)作为评判者时,使用简单聚合方法(如多数投票)导致评判准确率不高的问题。现有方法无法有效利用各个智能体的正确答案,且缺乏有效的共识判断机制,导致评判结果可能不准确。

核心思路:论文的核心思路是引入多智能体辩论机制,让多个LLM智能体针对同一问题进行辩论,通过迭代推理和相互质疑来逐步完善答案,从而提高评判的准确性。此外,引入稳定性检测机制,在智能体达成共识时提前停止辩论,提高效率。

技术框架:整体框架包含以下几个主要模块:1) 初始化:每个智能体独立生成初始答案。2) 辩论:智能体之间进行多轮辩论,每轮智能体根据其他智能体的观点更新自己的答案。3) 稳定性检测:使用时变Beta-二项混合模型来模拟评判者共识动态,并基于分布相似性(Kolmogorov-Smirnov检验)进行自适应停止。4) 最终评判:根据辩论结果,选择最终的答案。

关键创新:论文的关键创新在于:1) 提出了多智能体辩论的评判框架,通过智能体之间的协同推理来提高评判准确性。2) 引入了自适应稳定性检测机制,可以在保证准确性的前提下,提高计算效率。3) 从数学上形式化了辩论过程,并证明了辩论相比于静态集成可以提高正确性。

关键设计:稳定性检测机制是关键设计之一。它使用时变Beta-二项混合模型来模拟评判者的集体正确率动态。具体来说,每一轮辩论后,计算所有智能体答案的分布,并使用Kolmogorov-Smirnov统计量来衡量当前分布与上一轮分布的相似度。当相似度超过预设阈值时,认为智能体已达成共识,停止辩论。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的多智能体辩论评判框架在多个基准数据集上均优于传统的多数投票方法。例如,在某个数据集上,该框架的评判准确率比多数投票提高了5%-10%。此外,自适应稳定性检测机制可以在保证准确率的前提下,显著减少辩论轮数,提高计算效率。

🎯 应用场景

该研究成果可应用于各种需要自动化评估的场景,例如自动阅卷、代码评审、内容审核等。通过提高LLM评判的准确性和效率,可以降低人工成本,提高评估效率,并为大规模自动化评估提供技术支持。未来,该方法可以进一步扩展到更复杂的评判任务,例如涉及多模态信息的评估。

📄 摘要(原文)

With advancements in reasoning capabilities, Large Language Models (LLMs) are increasingly employed for automated judgment tasks. While LLMs-as-Judges offer promise in automating evaluations, current approaches often rely on simplistic aggregation methods (e.g., majority voting), which can fail even when individual agents provide correct answers. To address this, we propose a multi-agent debate judge framework where agents collaboratively reason and iteratively refine their responses. We formalize the debate process mathematically, analyzing agent interactions and proving that debate amplifies correctness compared to static ensembles. To enhance efficiency, we introduce a stability detection mechanism that models judge consensus dynamics via a time-varying Beta-Binomial mixture, with adaptive stopping based on distributional similarity (Kolmogorov-Smirnov test). This mechanism models the judges' collective correct rate dynamics using a time-varying mixture of Beta-Binomial distributions and employs an adaptive stopping criterion based on distributional similarity (Kolmogorov-Smirnov statistic). Experiments across multiple benchmarks and models demonstrate that our framework improves judgment accuracy over majority voting while maintaining computational efficiency.