Courtroom-Style Multi-Agent Debate with Progressive RAG and Role-Switching for Controversial Claim Verification

📄 arXiv: 2603.28488v1 📥 PDF

作者: Masnun Nuha Chowdhury, Nusrat Jahan Beg, Umme Hunny Khan, Syed Rifat Raiyan, Md Kamrul Hasan, Hasan Mahmud

分类: cs.CL, cs.AI, cs.MA

发布日期: 2026-03-30

备注: Under review, 7 figures, 13 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出PROClaim框架,通过法庭辩论式多智能体和渐进式RAG提升争议性声明验证的可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体辩论 声明验证 检索增强生成 法庭辩论 知识推理

📋 核心要点

  1. 现有LLM在声明验证中存在幻觉和推理不足的问题,传统的RAG和MAD方法在证据检索和辩论结构上存在局限性。
  2. PROClaim框架通过模拟法庭辩论,引入角色扮演和渐进式RAG,动态地扩展和优化证据,实现更可靠的验证。
  3. 实验表明,PROClaim在Check-COVID基准上显著优于传统方法,准确率提升10个百分点,证明了结构化辩论和模型异质性的有效性。

📝 摘要(中文)

大型语言模型(LLMs)由于幻觉和浅层推理,在高风险声明验证中仍然不可靠。检索增强生成(RAG)和多智能体辩论(MAD)虽然对此有所改进,但受限于单次检索和非结构化辩论动态。我们提出了一个法庭式多智能体框架PROClaim,将验证重新定义为结构化的对抗性审议。我们的方法集成了专门的角色(例如,原告、被告、法官)与渐进式RAG(P-RAG),以在辩论过程中动态扩展和完善证据池。此外,我们采用证据协商、自我反思和异构多法官聚合来强制校准、鲁棒性和多样性。在Check-COVID基准上的零样本评估中,PROClaim实现了81.7%的准确率,优于标准多智能体辩论10.0个百分点,其中P-RAG驱动了主要的性能提升(+7.5个百分点)。我们最终证明,结构化审议和模型异质性有效地缓解了系统性偏差,为可靠的声明验证提供了坚实的基础。我们的代码和数据可在https://github.com/mnc13/PROClaim公开获取。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在争议性声明验证任务中存在的不可靠问题,具体表现为幻觉和浅层推理。现有方法,如单次检索的RAG和非结构化辩论的MAD,无法充分利用证据,且容易受到模型偏差的影响。

核心思路:论文的核心思路是将声明验证问题转化为一个结构化的对抗性审议过程,模拟法庭辩论的形式。通过引入不同的角色(原告、被告、法官)和渐进式的证据检索,促使模型进行更深入、更全面的推理和证据评估。

技术框架:PROClaim框架包含以下主要模块:1) 角色扮演:定义原告、被告和法官的角色,每个角色具有特定的目标和行为准则。2) 渐进式RAG (P-RAG):在辩论过程中动态地检索和更新证据池,允许模型逐步完善对声明的理解。3) 证据协商:原告和被告之间进行证据协商,选择最具代表性和相关性的证据进行辩论。4) 自我反思:每个智能体在辩论后进行自我反思,评估自己的表现并调整策略。5) 多法官聚合:使用多个异构的法官模型对辩论结果进行评估,以提高鲁棒性和减少偏差。

关键创新:PROClaim的关键创新在于将法庭辩论的结构化流程引入到多智能体辩论中,并结合渐进式RAG,实现了更有效的证据利用和更深入的推理。与传统的MAD方法相比,PROClaim通过角色扮演和证据协商,避免了辩论的随意性和片面性。

关键设计:P-RAG的具体实现方式未知,论文中可能未详细描述其参数设置、损失函数或网络结构等技术细节。多法官聚合的具体策略(例如,投票、加权平均)也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PROClaim在Check-COVID基准测试中取得了显著的性能提升,准确率达到81.7%,相比标准多智能体辩论提高了10个百分点。其中,渐进式RAG (P-RAG) 是性能提升的主要驱动力,贡献了7.5个百分点的提升。实验结果表明,结构化审议和模型异质性能够有效缓解系统性偏差,提高声明验证的可靠性。

🎯 应用场景

PROClaim框架可应用于各种需要高可靠性声明验证的场景,例如:新闻事实核查、科学研究结果验证、医疗诊断辅助等。该研究有助于提高人工智能系统的可信度和透明度,减少错误信息传播,并为决策提供更可靠的依据。未来,该方法可以扩展到更复杂的知识密集型任务中。

📄 摘要(原文)

Large language models (LLMs) remain unreliable for high-stakes claim verification due to hallucinations and shallow reasoning. While retrieval-augmented generation (RAG) and multi-agent debate (MAD) address this, they are limited by one-pass retrieval and unstructured debate dynamics. We propose a courtroom-style multi-agent framework, PROClaim, that reformulates verification as a structured, adversarial deliberation. Our approach integrates specialized roles (e.g., Plaintiff, Defense, Judge) with Progressive RAG (P-RAG) to dynamically expand and refine the evidence pool during the debate. Furthermore, we employ evidence negotiation, self-reflection, and heterogeneous multi-judge aggregation to enforce calibration, robustness, and diversity. In zero-shot evaluations on the Check-COVID benchmark, PROClaim achieves 81.7% accuracy, outperforming standard multi-agent debate by 10.0 percentage points, with P-RAG driving the primary performance gains (+7.5 pp). We ultimately demonstrate that structural deliberation and model heterogeneity effectively mitigate systematic biases, providing a robust foundation for reliable claim verification. Our code and data are publicly available at https://github.com/mnc13/PROClaim.