HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment

作者: Zhanyu Liu, Qingguo Hu, Ante Wang, Chenqing Liu, Zhishang Xiang, Hui Li, Delai Qiu, Jinsong Su

分类: cs.LG, cs.AI

发布日期: 2026-04-20

备注: Accepted by ACL 2026 Main Conference

💡 一句话要点

提出HEAL框架，通过混合域熵动态对齐增强少样本RLVR探索能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 强化学习 少样本学习 熵动态对齐 可验证奖励 探索策略

📋 核心要点

现有RLVR方法在低资源场景下易发生熵崩溃，严重限制探索并降低推理性能。
HEAL框架通过选择性引入通用领域数据和熵动态对齐机制，促进多样化探索并缓解熵崩溃。
实验表明，HEAL在少样本情况下显著提升RLVR性能，甚至超越了全样本训练的效果。

📝 摘要（中文）

本文针对可验证奖励强化学习(RLVR)在训练面向推理的大型语言模型时，在低资源场景下易出现熵崩溃的问题，提出了一种混合域熵动态对齐(HEAL)框架。HEAL首先选择性地引入高价值的通用领域数据，以促进更多样化的探索。然后，引入熵动态对齐(EDA)奖励机制，对齐目标域和通用域之间轨迹级别的熵动态，捕捉熵的大小和细粒度变化。通过这种对齐，EDA不仅进一步缓解了熵崩溃，还鼓励策略从通用领域学习更多样化的探索行为。在多个领域上的实验表明，HEAL能够持续提高少样本RLVR的性能。值得注意的是，仅使用32个目标域样本，HEAL就能达到甚至超过使用1K个目标域样本训练的完整RLVR的性能。

🔬 方法详解

问题定义：论文旨在解决在少样本情况下，可验证奖励强化学习（RLVR）训练大型语言模型时遇到的熵崩溃问题。现有方法在数据资源充足的情况下表现良好，但在低资源场景下，由于缺乏足够的探索，策略容易陷入局部最优，导致性能显著下降。熵崩溃是主要痛点，它限制了策略的多样性，阻碍了对更优解的发现。

核心思路：论文的核心思路是通过混合领域学习和熵动态对齐来增强策略的探索能力。具体来说，首先利用通用领域的数据来引导策略进行更广泛的探索，然后通过对齐目标域和通用域的熵动态，使策略能够学习到通用领域的探索模式，并将其迁移到目标域中，从而缓解熵崩溃。这样设计的目的是为了在有限的目标域数据下，最大化策略的探索效率和学习能力。

技术框架：HEAL框架主要包含两个阶段：1) 通用领域数据选择性引入：从通用领域数据集中选择高价值的数据样本，用于预训练或微调策略，以扩大探索空间。2) 熵动态对齐(EDA)：设计一个奖励函数，用于对齐目标域和通用域的轨迹级别熵动态。该奖励函数不仅考虑熵的大小，还考虑熵随时间变化的趋势。整体流程是，首先使用通用领域数据进行初步训练，然后使用目标域数据进行微调，并在微调过程中使用EDA奖励函数。

关键创新：最重要的技术创新点是熵动态对齐(EDA)奖励机制。与传统的熵正则化方法不同，EDA不仅关注熵的绝对值，更关注熵在轨迹上的变化模式。通过对齐目标域和通用域的熵动态，EDA能够更有效地引导策略学习通用领域的探索策略，并将其迁移到目标域中。这种方法能够更精细地控制策略的探索行为，从而更有效地缓解熵崩溃。

关键设计：EDA奖励函数的设计是关键。具体来说，对于每个轨迹，计算其熵序列，然后计算目标域和通用域熵序列之间的动态时间规整(DTW)距离。EDA奖励与该DTW距离成反比，即距离越小，奖励越大。此外，通用领域数据的选择策略也很重要，可以选择与目标域任务相关的、具有较高奖励的数据样本。具体的网络结构和参数设置取决于具体的RLVR算法和任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，HEAL在多个领域上显著提升了少样本RLVR的性能。例如，在仅使用32个目标域样本的情况下，HEAL能够达到甚至超过使用1K个目标域样本训练的完整RLVR的性能。这表明HEAL能够有效地利用通用领域数据和熵动态对齐机制，从而在少样本情况下实现高效学习。

🎯 应用场景

HEAL框架可应用于各种需要少样本强化学习的场景，例如机器人控制、游戏AI、推荐系统等。尤其是在数据获取成本高昂或环境交互受限的领域，HEAL能够显著提升学习效率和性能。该研究有助于推动强化学习在实际问题中的应用，并为解决低资源环境下的强化学习问题提供新的思路。

📄 摘要（原文）

Reinforcement Learning with Verifiable Reward (RLVR) has proven effective for training reasoning-oriented large language models, but existing methods largely assume high-resource settings with abundant training data. In low-resource scenarios, RLVR is prone to more severe entropy collapse, which substantially limits exploration and degrades reasoning performance. To address this issue, we propose Hybrid-domain Entropy dynamics ALignment (HEAL), a framework tailored for few-shot RLVR. HEAL first selectively incorporates high-value general-domain data to promote more diverse exploration. Then, we introduce Entropy Dynamics Alignment (EDA), a reward mechanism that aligns trajectory-level entropy dynamics between the target and general domains, capturing both entropy magnitude and fine-grained variation. Through this alignment, EDA not only further mitigates entropy collapse but also encourages the policy to acquire more diverse exploration behaviors from the general domain. Experiments across multiple domains show that HEAL consistently improves few-shot RLVR performance. Notably, using only 32 target-domain samples, HEAL matches or even surpasses full-shot RLVR trained with 1K target-domain samples.

HEALing Entropy Collapse: Enhancing Exploration in Few-Shot RLVR via Hybrid-Domain Entropy Dynamics Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理