Stay Focused: Problem Drift in Multi-Agent Debate

📄 arXiv: 2502.19559v2 📥 PDF

作者: Jonas Becker, Lars Benedikt Kaesberg, Andreas Stephan, Jan Philip Wahle, Terry Ruas, Bela Gipp

分类: cs.CL

发布日期: 2025-02-26 (更新: 2025-05-21)

备注: 34 pages, 10 figures, 8 tables


💡 一句话要点

提出DRIFTJudge和DRIFTPolicy,解决多智能体辩论中的问题漂移现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多智能体辩论 问题漂移 大型语言模型 LLM-as-a-judge 推理任务

📋 核心要点

  1. 多智能体辩论在复杂推理任务中面临问题漂移的挑战,导致性能下降。
  2. 论文提出DRIFTJudge检测问题漂移,并提出DRIFTPolicy缓解漂移,提升性能。
  3. 实验表明,DRIFTJudge和DRIFTPolicy能够有效检测和缓解问题漂移,改善任务表现。

📝 摘要(中文)

多智能体辩论,即多个大型语言模型以回合制交互方式讨论问题,已显示出解决知识和推理任务的潜力。然而,在解决需要较长推理链的复杂问题时,这些方法存在局限性。我们分析了多智能体辩论在多个回合中如何偏离初始问题,从而损害任务性能。我们将这种现象定义为问题漂移,并量化其在十个任务(即三个生成任务、三个知识任务、三个推理任务和一个指令跟随任务)中的存在。为了确定这个问题的原因,八位人类专家分析了170个遭受问题漂移的多智能体讨论。我们发现与这种漂移相关的最常见问题是缺乏进展(35%的案例)、低质量的反馈(26%的案例)和缺乏清晰度(25%的案例)。为了解决问题漂移,我们提出DRIFTJudge,一种LLM-as-a-judge方法,用于在测试时检测问题漂移。我们还提出了DRIFTPolicy,一种缓解问题漂移案例以提高任务性能的方法。我们的研究是朝着理解多智能体辩论的一个关键局限性迈出的一步,突出了为什么更长的辩论会损害任务性能以及如何解决问题漂移。

🔬 方法详解

问题定义:论文旨在解决多智能体辩论中出现的问题漂移现象。现有方法在处理需要长链推理的复杂问题时,容易偏离初始问题,导致辩论质量下降和任务性能受损。这种漂移使得辩论过程变得低效,无法有效解决最初设定的问题。

核心思路:论文的核心思路是通过引入外部干预来监控和纠正辩论过程中的问题漂移。具体来说,利用大型语言模型(LLM)作为裁判(DRIFTJudge)来评估辩论是否偏离主题,并设计相应的策略(DRIFTPolicy)来引导辩论回到正轨。这种方法旨在保持辩论的焦点,确保其朝着解决初始问题的方向前进。

技术框架:整体框架包含以下几个主要阶段:1) 多智能体进行回合制辩论;2) DRIFTJudge在每个回合后评估是否存在问题漂移;3) 如果检测到漂移,DRIFTPolicy介入,调整辩论方向;4) 重复上述过程,直到辩论结束或达到预设的回合数。DRIFTJudge和DRIFTPolicy都是基于LLM实现的。

关键创新:最重要的技术创新点在于将LLM用作裁判来动态监控和纠正多智能体辩论中的问题漂移。与传统的静态干预方法不同,DRIFTJudge能够根据辩论的实际情况进行自适应评估,并指导DRIFTPolicy采取相应的措施。这种动态干预机制能够更有效地应对问题漂移,提高辩论的质量和效率。

关键设计:DRIFTJudge使用LLM对当前辩论状态与初始问题进行比较,输出一个漂移程度的评分。DRIFTPolicy则根据DRIFTJudge的评分,通过修改提示词或引入新的论点来引导辩论方向。具体的提示词设计和评分阈值是影响性能的关键参数。此外,论文还探索了不同的LLM作为DRIFTJudge和DRIFTPolicy的效果。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,DRIFTJudge能够有效检测问题漂移,DRIFTPolicy能够显著缓解问题漂移,并在多个任务上提升了多智能体辩论的性能。例如,在某些任务上,使用DRIFTPolicy后,任务完成度提升了10%以上,证明了该方法的有效性。

🎯 应用场景

该研究成果可应用于各种需要多智能体协作的场景,例如:复杂问题求解、决策制定、创意生成等。通过减少问题漂移,可以提高协作效率和最终结果的质量。未来可应用于智能客服、自动化科研等领域,提升AI系统的推理和协作能力。

📄 摘要(原文)

Multi-agent debate - multiple instances of large language models discussing problems in turn-based interaction - has shown promise for solving knowledge and reasoning tasks. However, these methods show limitations when solving complex problems that require longer reasoning chains. We analyze how multi-agent debate over multiple turns drifts away from the initial problem, thus harming task performance. We define this phenomenon as problem drift and quantify its presence across ten tasks (i.e., three generative, three knowledge, three reasoning, and one instruction-following task). To identify the reasons for this issue, eight human experts analyze 170 multi-agent discussions suffering from problem drift. We find the most common issues related to this drift are the lack of progress (35% of cases), low-quality feedback (26% of cases), and a lack of clarity (25% of cases). To address problem drift, we propose DRIFTJudge, an LLM-as-a-judge method, to detect problem drift at test-time. We also propose DRIFTPolicy, a method that mitigates problem drift cases to improve task performance. Our study is a step toward understanding a key limitation of multi-agent debate, highlighting why longer debates can harm task performance and how problem drift could be addressed.