Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning

作者: Yanan Chen, Ali Pesaranghader, Tanmana Sadhu

分类: cs.CL, cs.AI

发布日期: 2025-02-26 (更新: 2025-03-05)

备注: 12 pages, 1 figure, 3 tables, 4 prompt/data templates

💡 一句话要点

提出MoO方法，利用弱LLM的意见混合增强强LLM的数学推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数学推理 意见混合 思维链 后训练

📋 核心要点

大型语言模型在数学推理方面表现出潜力，但中小型开放LLM的可靠性仍待考量。
论文提出一种后训练方法，通过混合多个弱LLM的意见来提升强LLM的推理能力。
实验结果表明，该方法在数学推理基准测试中取得了平均5%的性能提升。

📝 摘要（中文）

本文提出了一种后训练方法，利用弱辅助LLM的意见混合(MoO)来增强（相对）较强LLM的推理能力，尤其是在数学领域。该方法通过使用来自辅助LLM的思维链(CoT)推理步骤和答案来扩充每个后训练样本，使主LLM能够从不同的角度学习。作者将MoO与标准监督微调(SFT)、少样本提示和混合代理(MoA)方法在数学推理基准上进行了比较。结果表明，结合较弱LLM的意见可以平均提高数学推理能力5%，突出了不同视角在推理任务中的价值。

🔬 方法详解

问题定义：论文旨在解决中小型开放LLM在数学推理任务中表现不佳的问题。现有方法，如直接微调或少样本提示，可能无法充分利用这些模型的潜力，而大型闭源模型（如GPT-4）的强大性能难以复现。因此，如何提升这些模型的数学推理能力是一个关键挑战。

核心思路：论文的核心思路是利用多个“弱”LLM的知识和推理路径，通过“集思广益”的方式来提升一个相对较强的LLM的推理能力。这种方法借鉴了集成学习的思想，认为不同模型的观点和推理过程可以互相补充，从而提高整体的准确性和鲁棒性。

技术框架：该方法主要包含以下几个阶段：1) 选择一个相对较强的LLM作为主模型；2) 选择多个较弱的LLM作为辅助模型；3) 使用数学推理数据集，并为每个样本生成多个CoT推理过程和答案，每个辅助模型生成一个；4) 将这些CoT推理过程和答案作为增强数据，用于微调主模型。微调过程采用标准的监督学习方法。

关键创新：该方法的核心创新在于利用了多个“弱”LLM的意见，而不是仅仅依赖于单个模型的知识。这种“意见混合”的方式可以为主模型提供更丰富的学习信号，从而提高其泛化能力和鲁棒性。与传统的集成学习方法不同，该方法不是在推理阶段进行集成，而是在训练阶段就将多个模型的知识融合到主模型中。

关键设计：关键设计包括：1) 如何选择合适的辅助模型，需要考虑模型的大小、架构和训练数据等因素；2) 如何生成高质量的CoT推理过程，需要确保推理过程的正确性和多样性；3) 如何有效地将多个模型的意见融合到主模型中，可能需要调整损失函数或网络结构等。论文中具体的技术细节（如损失函数、网络结构等）未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，通过引入弱LLM的意见混合(MoO)，主LLM在数学推理基准测试中取得了平均5%的性能提升。这一结果表明，即使是相对较弱的模型，其知识和推理过程也具有一定的价值，可以通过合适的方法加以利用。与标准监督微调(SFT)、少样本提示和混合代理(MoA)方法相比，MoO方法表现出更优的性能。

🎯 应用场景

该研究成果可应用于提升各种规模LLM的数学推理能力，尤其是在资源受限的场景下。通过利用易于获取的弱LLM，可以有效提升主模型的性能，降低对大型模型的依赖。此外，该方法也为其他需要复杂推理的任务提供了新的思路，例如代码生成、知识图谱推理等。

📄 摘要（原文）

Recent advances in Large Language Models (LLMs) have raised interest in their formal reasoning capabilities, particularly in mathematics. While closed LLMs like GPT-4 perform well on mathematical benchmarks, e.g., GSM8K, it remains unclear whether small to medium-sized open LLMs can achieve similar performance, questioning their reliability. To close this gap, we propose a post-training approach leveraging a mixture of opinions (MoO) from weaker ancillary LLMs to enhance a (relatively) stronger LLM's reasoning. For that, each post-training sample is augmented with Chain-of-Thought (CoT) reasoning steps and answers from ancillary LLMs, enabling the main LLM to learn from diverse perspectives. We compare MoO with standard supervised fine-tuning (SFT), few-shot prompting, and the Mixture of Agents (MoA) method on mathematical reasoning benchmarks. Our results show that incorporating weaker LLMs' opinions improves mathematical reasoning by an average of 5%, highlighting the value of diverse perspectives in reasoning tasks.

Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理