Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

作者: Tao Xiong, Xavier Hu, Wenyan Fan, Shengyu Zhang

分类: cs.CL, cs.AI

发布日期: 2025-07-01 (更新: 2025-07-03)

💡 一句话要点

提出混合推理（MoR）框架，提升大语言模型在复杂任务中的自适应推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理策略 自适应推理 混合推理 思维链 提示工程 监督微调

📋 核心要点

现有大语言模型依赖人工设计的任务特定提示进行复杂推理，缺乏通用性和效率。
MoR框架将多种推理策略嵌入模型，实现任务自适应推理，无需人工提示工程。
实验表明，MoR显著提升模型性能，在多个基准测试中优于现有方法。

📝 摘要（中文）

本文提出了一种名为混合推理（MoR）的训练框架，旨在提升大语言模型（LLMs）的推理能力。现有方法依赖于手动设计的、特定于任务的提示，限制了模型的适应性和效率。MoR通过将多样化的推理策略嵌入到LLM中，实现自主的、任务自适应的推理，无需外部提示工程。MoR包含两个阶段：思维生成阶段，利用GPT-4o等模型创建推理链模板；以及SFT数据集构建阶段，将模板与基准数据集配对，用于监督微调。实验结果表明，MoR显著提高了性能，MoR150在使用CoT提示时达到了0.730的准确率（提升2.2%），相比基线模型提升了13.5%。MoR消除了对特定任务提示的需求，为各种任务的鲁棒推理提供了一种通用的解决方案。

🔬 方法详解

问题定义：现有的大语言模型在解决复杂任务时，通常依赖于诸如Chain-of-Thought (CoT) 和 Tree-of-Thought (ToT) 等高级提示技术。然而，这些方法需要人工设计特定于任务的提示，这限制了模型的泛化能力和效率。针对不同任务，都需要专家知识来设计有效的提示，成本高昂且难以自动化。

核心思路：MoR的核心思路是通过训练让大语言模型自身具备多种推理策略，并能够根据不同的任务自适应地选择合适的策略。通过将不同的推理“思维链”模板嵌入到模型中，使其不再依赖于外部的、人工设计的提示，从而实现更通用、更高效的推理能力。这种方法类似于让模型学习成为一个“推理专家”，能够根据问题的特点选择合适的“思考方式”。

技术框架：MoR框架包含两个主要阶段：1) 思维生成阶段 (Thought Generation)：利用强大的语言模型（如GPT-4o）生成多样化的推理链模板。这些模板代表了不同的推理策略和思考路径。2) SFT数据集构建阶段 (SFT Dataset Construction)：将生成的推理链模板与现有的基准数据集进行配对，构建一个用于监督微调（SFT）的数据集。然后，使用这个数据集对大语言模型进行微调，使其学习到如何根据任务选择和应用合适的推理策略。

关键创新：MoR的关键创新在于它能够让大语言模型自主学习和选择推理策略，而无需人工干预。与传统的提示工程方法相比，MoR提供了一种更通用、更自动化的解决方案。它通过将推理策略嵌入到模型本身，提高了模型的适应性和鲁棒性。此外，MoR还能够生成多样化的推理链模板，从而丰富了模型的推理能力。

关键设计：在思维生成阶段，需要设计合适的提示语来引导GPT-4o等模型生成高质量的推理链模板。这些提示语应该能够鼓励模型探索不同的推理策略和思考路径。在SFT数据集构建阶段，需要仔细选择基准数据集，并确保生成的推理链模板与数据集中的问题相匹配。在模型微调阶段，可以使用标准的监督学习方法，例如交叉熵损失函数。论文中提到的MoR150可能指的是使用了150个不同的推理链模板进行训练。

🖼️ 关键图片

📊 实验亮点

MoR框架在多个基准测试中取得了显著的性能提升。例如，MoR150在使用CoT提示时达到了0.730的准确率，相比基线模型提升了2.2%。在某些任务上，MoR甚至取得了13.5%的显著提升。这些结果表明，MoR能够有效地提升大语言模型的推理能力，并使其在各种复杂任务中表现出色。

🎯 应用场景

MoR框架具有广泛的应用前景，可用于提升大语言模型在各种复杂任务中的性能，例如数学问题求解、常识推理、代码生成等。该方法能够降低对人工提示工程的依赖，提高模型的通用性和自动化程度，从而加速大语言模型在实际场景中的应用。未来，MoR有望应用于智能客服、自动化报告生成、智能决策支持等领域。

📄 摘要（原文）

Large language models (LLMs) excel in complex tasks through advanced prompting techniques like Chain-of-Thought (CoT) and Tree-of-Thought (ToT), but their reliance on manually crafted, task-specific prompts limits adaptability and efficiency. We introduce Mixture of Reasoning (MoR), a training framework that embeds diverse reasoning strategies into LLMs for autonomous, task-adaptive reasoning without external prompt engineering. MoR has two phases: Thought Generation, creating reasoning chain templates with models like GPT-4o, and SFT Dataset Construction, pairing templates with benchmark datasets for supervised fine-tuning. Our experiments show that MoR significantly enhances performance, with MoR150 achieving 0.730 (2.2% improvement) using CoT prompting and 0.734 (13.5% improvement) compared to baselines. MoR eliminates the need for task-specific prompts, offering a generalizable solution for robust reasoning across diverse tasks.

Mixture of Reasonings: Teach Large Language Models to Reason with Adaptive Strategies

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理