Mars-PO: Multi-Agent Reasoning System Preference Optimization

作者: Xiaoxuan Lou, Chaojie Wang, Bo An

分类: cs.AI

发布日期: 2024-11-28

💡 一句话要点

Mars-PO：通过多智能体推理系统偏好优化提升LLM数学推理能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 多智能体系统 偏好优化 指令微调

📋 核心要点

大型语言模型在数学推理方面面临挑战，自回归生成易导致错误和不一致。
Mars-PO利用多智能体系统，结合高质量输出构建鲁棒的偏好对进行训练。
实验表明，Mars-PO显著提升了LLM在数学推理基准上的性能，超越了现有方法。

📝 摘要（中文）

本文提出了一种名为Mars-PO的新框架，旨在通过多智能体系统提升大型语言模型（LLM）的数学推理能力。由于自回归生成过程的特点，LLM在多步推理中容易出现错误、幻觉和不一致性。Mars-PO将多个智能体的高质量输出组合成一个混合正样本集，并将其与特定于智能体的负样本配对，从而构建用于训练的鲁棒偏好对。通过使智能体与共享的正样本对齐，同时解决个体弱点，Mars-PO在数学推理基准测试中实现了显著的性能提升。例如，在MATH基准测试中，最先进的指令调整LLM Llama3.1-8B-Instruct的准确率从50.38%提高到57.82%。实验结果进一步表明，该方法始终优于其他基线，如监督微调、原始DPO及其增强版本，突出了该方法的有效性。

🔬 方法详解

问题定义：大型语言模型（LLM）在数学推理任务中表现欠佳，尤其是在多步推理过程中，容易产生错误、幻觉和不一致性。现有的方法，如监督微调和直接偏好优化（DPO），无法充分利用不同模型输出中的优势，并且难以有效区分高质量和低质量的推理路径。

核心思路：Mars-PO的核心思路是利用多智能体系统，每个智能体代表一个LLM。通过让多个智能体独立生成推理过程，然后将它们的高质量输出组合成一个共享的正样本集。同时，每个智能体保留其自身的负样本，用于区分个体弱点。这种方式能够让智能体学习到更鲁棒的偏好，从而提升整体的数学推理能力。

技术框架：Mars-PO框架包含以下几个主要步骤：1) 使用多个LLM（智能体）独立生成数学问题的解答；2) 从每个智能体的输出中筛选出高质量的解答，并将它们组合成一个共享的正样本集；3) 为每个智能体构建偏好对，其中正样本来自共享的正样本集，负样本来自该智能体自身的低质量输出；4) 使用偏好优化算法（如DPO）训练每个智能体，使其更倾向于生成高质量的解答。

关键创新：Mars-PO的关键创新在于其多智能体协作和混合偏好学习机制。与传统的单模型训练方法不同，Mars-PO能够利用多个模型的优势，并通过共享正样本和个体负样本的方式，更有效地学习到高质量的推理策略。这种方法能够更好地解决LLM在数学推理中遇到的错误、幻觉和不一致性问题。

关键设计：在Mars-PO中，关键的设计包括：1) 如何定义和筛选高质量的解答（例如，通过验证答案的正确性或使用奖励模型）；2) 如何构建有效的偏好对（例如，通过选择具有代表性的负样本）；3) 如何选择合适的偏好优化算法（例如，DPO或IPO）；4) 如何平衡共享正样本和个体负样本之间的权重，以避免过度拟合或欠拟合。

🖼️ 关键图片

📊 实验亮点

Mars-PO在MATH基准测试中，将Llama3.1-8B-Instruct的准确率从50.38%提高到57.82%，显著优于监督微调和原始DPO及其增强版本。实验结果表明，Mars-PO能够有效地提升LLM的数学推理能力，并且具有良好的泛化性能。

🎯 应用场景

Mars-PO具有广泛的应用前景，可用于提升LLM在各种需要复杂推理能力的场景中的表现，例如科学研究、金融分析、法律咨询等。通过提高LLM的推理准确性和可靠性，可以使其在这些领域发挥更大的作用，并为人类提供更有效的决策支持。

📄 摘要（原文）

Mathematical reasoning is a fundamental capability for large language models (LLMs), yet achieving high performance in this domain remains a significant challenge. The auto-regressive generation process often makes LLMs susceptible to errors, hallucinations, and inconsistencies, particularly during multi-step reasoning. In this paper, we propose Mars-PO, a novel framework to improve the mathematical reasoning capabilities of LLMs through a multi-agent system. It combines high-quality outputs from multiple agents into a hybrid positive sample set and pairs them with agent-specific negative samples to construct robust preference pairs for training. By aligning agents with shared positive samples while addressing individual weaknesses, Mars-PO achieves substantial performance improvements on mathematical reasoning benchmarks. For example, it increases the accuracy on the MATH benchmark of the state-of-the-art instruction-tuned LLM, Llama3.1-8B-Instruct, from 50.38% to 57.82%. Experimental results further demonstrate that our method consistently outperforms other baselines, such as supervised fine-tuning, vanilla DPO, and its enhanced versions, highlighting the effectiveness of our approach.

Mars-PO: Multi-Agent Reasoning System Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理