MAgICoRe: Multi-Agent, Iterative, Coarse-to-Fine Refinement for Reasoning
作者: Justin Chih-Yao Chen, Archiki Prasad, Swarnadeep Saha, Elias Stengel-Eskin, Mohit Bansal
分类: cs.CL
发布日期: 2024-09-18 (更新: 2025-09-17)
备注: EMNLP 2025 (Camera-Ready)
💡 一句话要点
MAgICoRe:多智能体迭代由粗到精推理框架,提升LLM数学问题求解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理 多智能体 迭代优化 奖励模型 数学问题求解 由粗到精 问题难度分类
📋 核心要点
- 现有LLM推理方法在测试时聚合策略上存在饱和点,且难以有效进行自我纠错和迭代优化。
- MAgICoRe通过难度分类、多智能体协作和奖励模型引导,实现由粗到精的迭代推理优化。
- 实验表明,MAgICoRe在数学问题求解上优于现有方法,且能随迭代次数增加持续提升性能。
📝 摘要(中文)
大型语言模型(LLM)的推理能力可以通过测试时聚合策略来提高,即生成多个样本并在生成的样本中进行投票。虽然这些方法提高了性能,但它们通常会达到饱和点。精炼提供了一种替代方案,通过使用LLM生成的反馈来提高解决方案的质量。然而,精炼带来了3个关键挑战:(1)过度精炼:统一精炼所有实例可能会过度纠正并降低整体性能。(2)无法定位和解决错误:LLM的自我纠正能力有限,并且难以识别和纠正自己的错误。(3)精炼不足:确定需要多少次精炼迭代并非易事,过早停止可能会使错误未被解决。为了解决这些问题,我们提出了MAgICoRe,它通过将问题难度分类为简单或困难来避免过度精炼,使用粗粒度聚合解决简单问题,使用细粒度和迭代多智能体精炼解决困难问题。为了提高错误定位,我们结合了外部逐步奖励模型(RM)分数。此外,为了确保有效的精炼,我们采用了一个包含三个智能体的多智能体循环:求解器、审查器(根据逐步RM分数生成有针对性的反馈)和精炼器(结合反馈)。为了确保充分的精炼,我们重新评估更新后的解决方案,迭代地启动进一步的精炼轮次。我们在Llama-3-8B和GPT-3.5上评估了MAgICoRe,并展示了其在5个数学数据集上的有效性。即使一次迭代的MAgICoRe也比Self-Consistency高3.4%,比Best-of-k高3.2%,比Self-Refine高4.0%,同时使用的样本不到一半。与基线的迭代精炼不同,MAgICoRe随着更多迭代而持续改进。最后,我们的消融实验突出了MAgICoRe的RM和多智能体通信的重要性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在复杂推理任务中,特别是数学问题求解中,存在的以下问题:一是简单的测试时聚合策略(如Self-Consistency)存在性能饱和;二是LLM难以有效定位和纠正自身错误,导致迭代优化效果不佳;三是难以确定合适的迭代次数,可能导致精炼不足或过度精炼。现有方法的痛点在于缺乏有效的错误定位和迭代优化机制,以及对不同难度问题的差异化处理。
核心思路:MAgICoRe的核心思路是采用多智能体协作的方式,模拟人类解决复杂问题的过程,通过分工合作、迭代反馈和奖励引导,逐步提升LLM的推理能力。具体来说,它将问题分为简单和困难两类,对简单问题采用粗粒度聚合,对困难问题采用细粒度的迭代精炼。通过引入外部奖励模型,辅助LLM定位错误,并利用多智能体之间的沟通和协作,实现更有效的错误纠正和迭代优化。
技术框架:MAgICoRe的整体框架包含以下几个主要模块:1) 问题难度分类器:用于将问题分为简单和困难两类。2) 求解器(Solver):负责生成初始解决方案。3) 审查器(Reviewer):基于外部奖励模型(RM)对解决方案的每一步进行评估,并生成针对性的反馈。4) 精炼器(Refiner):根据审查器的反馈,对解决方案进行改进。5) 迭代控制模块:负责控制迭代次数,并根据解决方案的质量决定是否进行下一轮精炼。整个流程是一个多智能体循环,求解器生成初始解,审查器提供反馈,精炼器改进解,然后重新评估,直到满足停止条件。
关键创新:MAgICoRe的关键创新在于以下几个方面:一是提出了基于问题难度的差异化处理策略,避免了对所有问题进行统一精炼可能导致的过度纠正问题。二是引入了外部奖励模型,辅助LLM定位错误,提高了错误纠正的效率。三是采用了多智能体协作的框架,模拟了人类解决问题的过程,实现了更有效的迭代优化。与现有方法的本质区别在于,MAgICoRe不是简单地对LLM的输出进行聚合或自我精炼,而是通过多智能体的分工合作和迭代反馈,实现了更深层次的推理能力提升。
关键设计:在关键设计方面,MAgICoRe使用了外部的逐步奖励模型(RM)来评估解决方案的质量,并生成针对性的反馈。奖励模型可以是预训练的,也可以是根据特定任务进行微调的。多智能体之间的沟通方式也至关重要,审查器需要能够清晰地表达错误所在,精炼器需要能够有效地理解和利用反馈。此外,迭代控制模块需要根据解决方案的质量动态调整迭代次数,以避免精炼不足或过度精炼。具体的参数设置、损失函数和网络结构等技术细节可能因具体任务而异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MAgICoRe在5个数学数据集上均取得了显著的性能提升。即使只进行一次迭代,MAgICoRe也比Self-Consistency高3.4%,比Best-of-k高3.2%,比Self-Refine高4.0%,且使用的样本数量更少。与现有迭代精炼方法不同,MAgICoRe的性能随着迭代次数的增加而持续提升。消融实验验证了奖励模型和多智能体通信在MAgICoRe中的重要作用。
🎯 应用场景
MAgICoRe具有广泛的应用前景,可应用于数学问题求解、代码生成、文本摘要、对话生成等需要复杂推理的任务。该方法能够有效提升LLM的推理能力和问题解决能力,具有重要的实际价值。未来,可以将MAgICoRe应用于更广泛的领域,并探索更有效的多智能体协作和迭代优化策略。
📄 摘要(原文)
Large Language Models' (LLM) reasoning can be improved using test-time aggregation strategies, i.e., generating multiple samples and voting among generated samples. While these improve performance, they often reach a saturation point. Refinement offers an alternative by using LLM-generated feedback to improve solution quality. However, refinement introduces 3 key challenges: (1) Excessive refinement: Uniformly refining all instances can over-correct and reduce the overall performance. (2) Inability to localize and address errors: LLMs have a limited ability to self-correct and struggle to identify and correct their own mistakes. (3) Insufficient refinement: Deciding how many iterations of refinement are needed is non-trivial, and stopping too soon could leave errors unaddressed. To tackle these issues, we propose MAgICoRe, which avoids excessive refinement by categorizing problem difficulty as easy or hard, solving easy problems with coarse-grained aggregation and hard ones with fine-grained and iterative multi-agent refinement. To improve error localization, we incorporate external step-wise reward model (RM) scores. Moreover, to ensure effective refinement, we employ a multi-agent loop with three agents: Solver, Reviewer (which generates targeted feedback based on step-wise RM scores), and the Refiner (which incorporates feedback). To ensure sufficient refinement, we re-evaluate updated solutions, iteratively initiating further rounds of refinement. We evaluate MAgICoRe on Llama-3-8B and GPT-3.5 and show its effectiveness across 5 math datasets. Even one iteration of MAgICoRe beats Self-Consistency by 3.4%, Best-of-k by 3.2%, and Self-Refine by 4.0% while using less than half the samples. Unlike iterative refinement with baselines, MAgICoRe continues to improve with more iterations. Finally, our ablations highlight the importance of MAgICoRe's RMs and multi-agent communication.