Recall-Extend Dynamics: Enhancing Small Language Models through Controlled Exploration and Refined Offline Integration

作者: Zhong Guan, Likang Wu, Hongke Zhao, Jiahui Wang, Le Wu

分类: cs.LG, cs.AI, cs.CL

发布日期: 2025-08-21

💡 一句话要点

提出RED方法，通过控制探索和优化离线集成，提升小语言模型的推理能力。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 强化学习 离线蒸馏 策略转移 探索空间

📋 核心要点

现有方法难以有效提升小语言模型的推理能力，尤其是在探索空间和离线数据利用方面存在不足。
RED方法通过控制探索空间，平衡离线蒸馏和在线强化学习，并优化离线数据的集成方式，提升模型性能。
RED方法通过监控熵变化比例调节离线SFT权重，并设计基于样本准确率的策略转移机制，解决分布差异问题。

📝 摘要（中文）

现有研究主要关注通过可验证奖励的强化学习(RLVR)提升大型语言模型(LLM)的推理能力，而对小型语言模型(SLM)推理能力的增强探索不足。将大型模型的蒸馏数据与SLM上的RLVR相结合是一种自然的方法，但仍面临挑战。因此，我们提出了Recall-Extend Dynamics(RED)，通过控制探索和优化离线集成来增强小型语言模型。本文探讨了不同探索空间的视角，平衡了离线蒸馏与在线强化学习。同时，我们专门针对离线数据中的插入问题进行了设计和优化。通过监控模型中关于离线和在线数据熵变化的比例，我们调节离线SFT的权重，从而解决小型模型探索空间不足以及蒸馏过程中的冗余和复杂性问题。此外，为了解决离线数据与当前策略之间的分布差异，我们设计了一种基于样本准确率的策略转移机制，该机制动态地选择模仿离线蒸馏数据或从自身策略中学习。

🔬 方法详解

问题定义：论文旨在解决小型语言模型（SLM）推理能力提升不足的问题。现有方法，如直接将大型语言模型（LLM）蒸馏的数据与SLM上的强化学习相结合，面临探索空间不足、离线数据冗余复杂以及离线数据与在线策略分布差异等痛点。这些问题限制了SLM的性能提升。

核心思路：RED的核心思路是通过控制探索空间和优化离线集成，来平衡离线蒸馏和在线强化学习。具体来说，通过监控模型关于离线和在线数据熵变化的比例，动态调节离线SFT的权重，从而避免过度依赖离线数据，保证模型有足够的探索空间。同时，设计基于样本准确率的策略转移机制，动态选择模仿离线数据或从自身策略学习，以应对分布差异。

技术框架：RED方法包含以下几个主要模块：1) 离线数据蒸馏：从大型语言模型蒸馏得到高质量的训练数据。2) 熵变化监控：监控模型关于离线和在线数据熵变化的比例。3) 离线SFT权重调节：根据熵变化比例动态调节离线SFT的权重。4) 策略转移机制：基于样本准确率动态选择模仿离线数据或从自身策略学习。整个流程旨在平衡离线学习和在线探索，提升SLM的推理能力。

关键创新：RED的关键创新在于：1) 提出了一种基于熵变化比例的离线SFT权重调节机制，能够有效控制模型对离线数据的依赖程度，保证足够的探索空间。2) 设计了一种基于样本准确率的策略转移机制，能够动态地适应离线数据和在线策略之间的分布差异。这些创新使得RED方法能够更有效地利用离线数据，并提升SLM的推理能力。

关键设计：RED的关键设计包括：1) 熵变化比例的计算方式：具体如何定义和计算模型关于离线和在线数据的熵变化，以及如何利用该比例调节离线SFT的权重。2) 策略转移机制的实现细节：如何定义样本准确率，以及如何根据准确率动态选择模仿离线数据或从自身策略学习。这些细节决定了RED方法的性能。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了RED方法的有效性。具体性能数据未知，但结果表明RED方法能够显著提升小型语言模型的推理能力，优于现有的蒸馏和强化学习方法。RED方法在平衡离线学习和在线探索方面取得了显著进展，为小型语言模型的推理能力提升提供了新的思路。

🎯 应用场景

RED方法可应用于各种需要小型语言模型进行推理的场景，例如移动设备上的智能助手、资源受限的边缘计算设备等。通过提升SLM的推理能力，可以降低计算成本，提高响应速度，并扩展语言模型在资源受限环境下的应用范围。未来，该方法有望推动SLM在更多实际场景中的应用。

📄 摘要（原文）

Many existing studies have achieved significant improvements in the reasoning capabilities of large language models (LLMs) through reinforcement learning with verifiable rewards (RLVR), while the enhancement of reasoning abilities in small language models (SLMs) has not yet been sufficiently explored. Combining distilled data from larger models with RLVR on small models themselves is a natural approach, but it still faces various challenges and issues. Therefore, we propose \textit{\underline{R}}ecall-\textit{\underline{E}}xtend \textit{\underline{D}}ynamics(RED): Enhancing Small Language Models through Controlled Exploration and Refined Offline Integration. In this paper, we explore the perspective of varying exploration spaces, balancing offline distillation with online reinforcement learning. Simultaneously, we specifically design and optimize for the insertion problem within offline data. By monitoring the ratio of entropy changes in the model concerning offline and online data, we regulate the weight of offline-SFT, thereby addressing the issues of insufficient exploration space in small models and the redundancy and complexity during the distillation process. Furthermore, to tackle the distribution discrepancies between offline data and the current policy, we design a sample-accuracy-based policy shift mechanism that dynamically chooses between imitating offline distilled data and learning from its own policy.

Recall-Extend Dynamics: Enhancing Small Language Models through Controlled Exploration and Refined Offline Integration

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理