Weaker LLMs' Opinions Also Matter: Mixture of Opinions Enhances LLM's Mathematical Reasoning
作者: Yanan Chen, Ali Pesaranghader, Tanmana Sadhu
分类: cs.CL, cs.AI
发布日期: 2025-02-26 (更新: 2025-03-05)
备注: 12 pages, 1 figure, 3 tables, 4 prompt/data templates
💡 一句话要点
提出MoO方法,利用弱LLM的意见混合增强强LLM的数学推理能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数学推理 意见混合 思维链 后训练
📋 核心要点
- 大型语言模型在数学推理方面表现出潜力,但中小型开放LLM的可靠性仍待考量。
- 论文提出一种后训练方法,通过混合多个弱LLM的意见来提升强LLM的推理能力。
- 实验结果表明,该方法在数学推理基准测试中取得了平均5%的性能提升。
📝 摘要(中文)
本文提出了一种后训练方法,利用弱辅助LLM的意见混合(MoO)来增强(相对)较强LLM的推理能力,尤其是在数学领域。该方法通过使用来自辅助LLM的思维链(CoT)推理步骤和答案来扩充每个后训练样本,使主LLM能够从不同的角度学习。作者将MoO与标准监督微调(SFT)、少样本提示和混合代理(MoA)方法在数学推理基准上进行了比较。结果表明,结合较弱LLM的意见可以平均提高数学推理能力5%,突出了不同视角在推理任务中的价值。
🔬 方法详解
问题定义:论文旨在解决中小型开放LLM在数学推理任务中表现不佳的问题。现有方法,如直接微调或少样本提示,可能无法充分利用这些模型的潜力,而大型闭源模型(如GPT-4)的强大性能难以复现。因此,如何提升这些模型的数学推理能力是一个关键挑战。
核心思路:论文的核心思路是利用多个“弱”LLM的知识和推理路径,通过“集思广益”的方式来提升一个相对较强的LLM的推理能力。这种方法借鉴了集成学习的思想,认为不同模型的观点和推理过程可以互相补充,从而提高整体的准确性和鲁棒性。
技术框架:该方法主要包含以下几个阶段:1) 选择一个相对较强的LLM作为主模型;2) 选择多个较弱的LLM作为辅助模型;3) 使用数学推理数据集,并为每个样本生成多个CoT推理过程和答案,每个辅助模型生成一个;4) 将这些CoT推理过程和答案作为增强数据,用于微调主模型。微调过程采用标准的监督学习方法。
关键创新:该方法的核心创新在于利用了多个“弱”LLM的意见,而不是仅仅依赖于单个模型的知识。这种“意见混合”的方式可以为主模型提供更丰富的学习信号,从而提高其泛化能力和鲁棒性。与传统的集成学习方法不同,该方法不是在推理阶段进行集成,而是在训练阶段就将多个模型的知识融合到主模型中。
关键设计:关键设计包括:1) 如何选择合适的辅助模型,需要考虑模型的大小、架构和训练数据等因素;2) 如何生成高质量的CoT推理过程,需要确保推理过程的正确性和多样性;3) 如何有效地将多个模型的意见融合到主模型中,可能需要调整损失函数或网络结构等。论文中具体的技术细节(如损失函数、网络结构等)未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过引入弱LLM的意见混合(MoO),主LLM在数学推理基准测试中取得了平均5%的性能提升。这一结果表明,即使是相对较弱的模型,其知识和推理过程也具有一定的价值,可以通过合适的方法加以利用。与标准监督微调(SFT)、少样本提示和混合代理(MoA)方法相比,MoO方法表现出更优的性能。
🎯 应用场景
该研究成果可应用于提升各种规模LLM的数学推理能力,尤其是在资源受限的场景下。通过利用易于获取的弱LLM,可以有效提升主模型的性能,降低对大型模型的依赖。此外,该方法也为其他需要复杂推理的任务提供了新的思路,例如代码生成、知识图谱推理等。
📄 摘要(原文)
Recent advances in Large Language Models (LLMs) have raised interest in their formal reasoning capabilities, particularly in mathematics. While closed LLMs like GPT-4 perform well on mathematical benchmarks, e.g., GSM8K, it remains unclear whether small to medium-sized open LLMs can achieve similar performance, questioning their reliability. To close this gap, we propose a post-training approach leveraging a mixture of opinions (MoO) from weaker ancillary LLMs to enhance a (relatively) stronger LLM's reasoning. For that, each post-training sample is augmented with Chain-of-Thought (CoT) reasoning steps and answers from ancillary LLMs, enabling the main LLM to learn from diverse perspectives. We compare MoO with standard supervised fine-tuning (SFT), few-shot prompting, and the Mixture of Agents (MoA) method on mathematical reasoning benchmarks. Our results show that incorporating weaker LLMs' opinions improves mathematical reasoning by an average of 5%, highlighting the value of diverse perspectives in reasoning tasks.