It Helps to Take a Second Opinion: Teaching Smaller LLMs to Deliberate Mutually via Selective Rationale Optimisation

作者: Sohan Patnaik, Milan Aggarwal, Sumit Bhatia, Balaji Krishnamurthy

分类: cs.CL

发布日期: 2025-03-04

备注: Accepted at ICLR 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出COALITION框架，通过选择性推理优化提升小型LLM在复杂任务中的推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 推理优化 知识蒸馏 模型协作 选择性推理 常识推理 自然语言推理

📋 核心要点

现有方法依赖大型语言模型进行知识蒸馏，但存在API成本高昂、版权限制等问题，限制了小型语言模型在商业上的应用。
COALITION框架通过训练同一小型语言模型的两个变体进行交互，生成多样化的候选推理，并通过选择性推理优化来提升性能。
实验结果表明，COALITION在数学问题、常识推理和自然语言推理等任务上，相比基线模型性能提升高达5%，且适用于不同规模和类型的模型。

📝 摘要（中文）

大型语言模型（LLM），如GPT-4，已展示出通过生成和自迭代逐步推理来处理复杂任务的能力。小型语言模型（SLM），通常参数小于130亿，可以通过知识蒸馏利用大型语言模型生成的数据进行改进。然而，API成本、版权、法律和伦理政策等实际约束限制了使用大型（通常是不透明的）模型来训练用于商业用途的较小模型。通过自我推敲来提高SLM探索可能的推理空间并自行评估它们的能力方面，进展有限。为了解决这个问题，我们提出了COALITION，一个可训练的框架，它促进了同一SLM的两个变体之间的交互，并训练它们生成和改进针对最终任务优化的推理。这些变体表现出不同的行为，以在生成和改进步骤中产生一组多样化的候选推理。然后，该模型通过选择性推理优化（SRO）进行训练，以优先生成最大化产生真实答案可能性的候选推理。在推理过程中，COALITION采用控制器来选择合适的变体来生成和改进推理。在涵盖数学问题、常识推理和自然语言推理的五个不同数据集上，COALITION优于多个基线，提升高达5%。我们的消融研究表明，两个变体之间的交叉通信比使用单个模型来自我改进推理效果更好。我们还展示了COALITION对不同规模（4B到14B参数）和模型系列（Mistral、Llama、Qwen、Phi）的LM的适用性。我们在此处发布了这项工作的代码：https://github.com/Sohanpatnaik106/coalition。

🔬 方法详解

问题定义：论文旨在解决小型语言模型（SLM）在复杂推理任务中表现不佳的问题。现有方法依赖于大型语言模型（LLM）的知识蒸馏，但由于API成本、版权等限制，无法充分利用LLM的优势。此外，SLM自身进行推理探索和评估的能力也存在不足。

核心思路：论文的核心思路是让两个SLM变体相互协作，通过生成和优化推理过程，提升整体性能。每个变体都具有不同的行为模式，从而产生多样化的候选推理。通过选择性推理优化，模型能够学习选择更有效的推理路径，最终提高解决问题的准确率。

技术框架：COALITION框架包含两个SLM变体（Variant A和Variant B）和一个控制器。在生成阶段，两个变体独立生成候选推理。在改进阶段，它们相互交流并迭代优化推理过程。最后，控制器根据任务需求选择合适的变体进行推理。整个过程通过选择性推理优化（SRO）进行训练，目标是最大化生成正确答案的概率。

关键创新：该方法最重要的创新点在于引入了两个SLM变体之间的相互协作机制。与传统的自迭代推理方法相比，COALITION能够探索更广阔的推理空间，并利用不同变体的优势进行互补。选择性推理优化则确保模型能够学习到有效的推理策略。

关键设计：COALITION的关键设计包括：1) 两个SLM变体的差异化设计，使其具有不同的推理风格；2) 变体之间的信息交流机制，例如共享中间推理结果；3) 选择性推理优化（SRO）损失函数，鼓励模型生成更接近ground truth的推理过程。具体的损失函数设计和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

COALITION在五个不同的数据集上进行了评估，包括数学问题、常识推理和自然语言推理。实验结果表明，COALITION优于多个基线模型，性能提升高达5%。消融实验证明，两个变体之间的交叉通信比单个模型自迭代推理效果更好。此外，该方法适用于不同规模（4B到14B参数）和模型系列（Mistral、Llama、Qwen、Phi）的语言模型。

🎯 应用场景

COALITION框架可应用于各种需要复杂推理的任务，例如数学问题求解、常识推理、自然语言推理等。该方法能够提升小型语言模型在资源受限环境下的性能，降低对大型语言模型的依赖，具有广泛的应用前景和商业价值。未来可进一步探索COALITION在其他领域的应用，例如代码生成、对话系统等。

📄 摘要（原文）

Very large language models (LLMs) such as GPT-4 have shown the ability to handle complex tasks by generating and self-refining step-by-step rationales. Smaller language models (SLMs), typically with < 13B parameters, have been improved by using the data generated from very-large LMs through knowledge distillation. However, various practical constraints such as API costs, copyright, legal and ethical policies restrict using large (often opaque) models to train smaller models for commercial use. Limited success has been achieved at improving the ability of an SLM to explore the space of possible rationales and evaluate them by itself through self-deliberation. To address this, we propose COALITION, a trainable framework that facilitates interaction between two variants of the same SLM and trains them to generate and refine rationales optimized for the end-task. The variants exhibit different behaviors to produce a set of diverse candidate rationales during the generation and refinement steps. The model is then trained via Selective Rationale Optimization (SRO) to prefer generating rationale candidates that maximize the likelihood of producing the ground-truth answer. During inference, COALITION employs a controller to select the suitable variant for generating and refining the rationales. On five different datasets covering mathematical problems, commonsense reasoning, and natural language inference, COALITION outperforms several baselines by up to 5%. Our ablation studies reveal that cross-communication between the two variants performs better than using the single model to self-refine the rationales. We also demonstrate the applicability of COALITION for LMs of varying scales (4B to 14B parameters) and model families (Mistral, Llama, Qwen, Phi). We release the code for this work at https://github.com/Sohanpatnaik106/coalition.

It Helps to Take a Second Opinion: Teaching Smaller LLMs to Deliberate Mutually via Selective Rationale Optimisation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理