Diversity of Thought Elicits Stronger Reasoning Capabilities in Multi-Agent Debate Frameworks
作者: Mahmood Hegazy
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-10-10 (更新: 2025-01-23)
备注: 11 pages, 9 figures
💡 一句话要点
多智能体辩论框架中,思维多样性增强LLM的推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多智能体系统 辩论框架 思维多样性 数学推理 大型语言模型
📋 核心要点
- 现有LLM在数学推理等任务中易产生错误,缺乏可靠性,需要改进。
- 利用多智能体辩论框架,通过不同模型的思维碰撞提升推理能力。
- 实验表明,多样化模型组合在数学推理任务上超越GPT-4,并在ASDiv上取得SOTA。
📝 摘要(中文)
大型语言模型(LLMs)在自然语言生成方面表现出色,但经常自信地产生不正确的响应,尤其是在数学推理等任务中。链式思考提示、自我验证和多智能体辩论是已被提出的用于提高LLMs的推理和事实准确性的策略。在Du等人提出的多智能体辩论框架的基础上,我们发现多智能体辩论在任何模型规模下都有帮助,并且思维多样性可以激发辩论LLMs中更强的推理能力。在各种模型规模中,当使用不同的训练模型时,数学推理任务的性能受益最大。值得注意的是,经过4轮辩论后,一组不同的中等容量模型(Gemini-Pro、Mixtral 7BX8和PaLM 2-M)在GSM-8K基准测试中优于GPT-4,准确率达到91%。相比之下,当使用3个Gemini-Pro实例时,性能仅达到82%。最后,这组不同的中等容量模型在ASDiv基准测试中创造了新的最先进性能(94%)。这些结果强调了人工智能的未来是智能体的,多样化的合作智能体产生的涌现能力甚至超越了最强大的单个模型。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂推理任务,特别是数学推理任务中,容易产生错误答案的问题。现有方法,如单一模型的链式思考,虽然有所改进,但仍然存在准确率不足的痛点。此外,同质化的多智能体辩论也存在信息茧房的风险,限制了推理能力的提升。
核心思路:论文的核心思路是引入“思维多样性”到多智能体辩论框架中。通过使用不同架构、不同训练数据的多个模型进行辩论,模拟不同观点的碰撞,从而更全面地审视问题,减少错误答案的产生。这种多样性可以打破单一模型的局限性,提高整体的推理能力。
技术框架:论文采用Du等人提出的多智能体辩论框架作为基础,主要流程包括:1) 初始论点生成:每个智能体(LLM)根据问题独立生成初始论点;2) 多轮辩论:智能体之间互相质疑、反驳对方的论点,并根据辩论结果更新自己的观点;3) 最终答案选择:经过多轮辩论后,选择最合理的论点作为最终答案。关键改进在于,框架中的智能体不再是同一模型的多个实例,而是不同的模型。
关键创新:最重要的技术创新点在于将“思维多样性”的概念引入多智能体辩论。与以往使用相同模型或相似模型的辩论方法不同,该论文强调使用不同架构、不同训练数据的多样化模型组合。这种多样性能够带来更全面的信息和更深入的思考,从而显著提升推理能力。
关键设计:论文的关键设计包括:1) 模型选择:选择Gemini-Pro、Mixtral 7BX8和PaLM 2-M等不同架构和规模的模型,以保证思维的多样性;2) 辩论轮数:实验中设置了4轮辩论,以保证智能体之间有足够的时间进行信息交换和观点碰撞;3) 最终答案选择:采用投票机制,选择获得最多支持的论点作为最终答案。没有特别提及损失函数或网络结构的修改,主要关注于模型组合和辩论流程的设计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,由Gemini-Pro、Mixtral 7BX8和PaLM 2-M组成的多样化智能体组合,经过4轮辩论后,在GSM-8K基准测试中达到了91%的准确率,超越了GPT-4。此外,该组合在ASDiv基准测试中取得了94%的准确率,刷新了SOTA。相比之下,使用3个Gemini-Pro实例的辩论,在GSM-8K上的准确率仅为82%,凸显了思维多样性的重要性。
🎯 应用场景
该研究成果可应用于需要高可靠性推理能力的场景,如金融分析、医疗诊断、法律咨询等。通过构建由多样化AI智能体组成的协作系统,可以提升决策的准确性和可靠性,减少错误风险。未来,该方法有望扩展到更广泛的领域,例如科学研究、工程设计等,促进人与AI的协同创新。
📄 摘要(原文)
Large language models (LLMs) excel in natural language generation but often confidently produce incorrect responses, especially in tasks like mathematical reasoning. Chain-of-thought prompting, self-verification, and multi-agent debate are among the strategies proposed to improve the reasoning and factual accuracy of LLMs. Building on Du et al.'s multi-agent debate framework, we find that multi-agent debate helps at any model scale, and that diversity of thought elicits stronger reasoning in debating LLMs. Across various model sizes, performance on mathematical reasoning tasks benefits most when diverse trained models are used. Remarkably, after 4 rounds of debate, a diverse set of medium-capacity models (Gemini-Pro, Mixtral 7BX8, and PaLM 2-M) outperforms GPT-4 on the GSM-8K benchmark, scoring 91% accuracy. By comparison, when 3 instances of Gemini-Pro are used, performance only reaches 82%. Finally, this diverse set of medium-capacity models sets a new state-of-the-art performance on the ASDiv benchmark (94%). These results underscore the idea that the future of AI is agentic, with diverse cooperating agents yielding emergent capabilities beyond even the most powerful individual models.