Replay Failures as Successes: Sample-Efficient Reinforcement Learning for Instruction Following

📄 arXiv: 2512.23457v1 📥 PDF

作者: Kongcheng Zhang, Qi Yao, Shunyu Liu, Wenjian Zhang, Min Cen, Yang Zhou, Wenkai Fang, Yiru Zhao, Baisheng Lai, Mingli Song

分类: cs.AI, cs.CL, cs.LG

发布日期: 2025-12-29

🔗 代码/项目: GITHUB


💡 一句话要点

提出HiR:一种面向指令跟随任务的、基于回溯重放的样本高效强化学习方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 指令跟随 样本效率 回溯重放 大型语言模型

📋 核心要点

  1. 现有强化学习方法在指令跟随任务中面临奖励稀疏问题,初始模型难以生成满足所有约束的响应。
  2. HiR通过回溯指令重放,将失败尝试根据事后满足的约束重写为成功案例,增加有效样本。
  3. 实验表明,HiR在指令跟随任务中表现出良好的性能,并降低了计算成本,提升了样本效率。

📝 摘要(中文)

强化学习(RL)在对齐大型语言模型(LLM)以遵循具有各种约束的指令方面显示出前景。尽管结果令人鼓舞,但RL的改进不可避免地依赖于采样成功的、高质量的响应;然而,由于初始模型的能力有限,通常难以生成满足所有约束的响应,从而产生稀疏或难以区分的奖励,阻碍了学习。本文提出了一种新颖的样本高效RL框架——回溯指令重放(HiR),用于复杂的指令跟随任务。HiR采用一种先选择后重写的策略,基于事后满足的约束,将失败的尝试重放为成功。我们对这些重放的样本以及原始样本执行RL,从理论上将目标构建为指令和响应级别的双重偏好学习,从而仅使用二元奖励信号即可实现高效优化。大量的实验表明,所提出的HiR在不同的指令跟随任务中产生了有希望的结果,同时减少了计算预算。我们的代码和数据集可在https://github.com/sastpg/HIR获得。

🔬 方法详解

问题定义:论文旨在解决指令跟随任务中,强化学习训练样本效率低下的问题。现有方法依赖于采样成功的、高质量的响应,但初始模型能力有限,难以生成满足所有约束的响应,导致奖励信号稀疏,阻碍学习。

核心思路:核心思路是将失败的尝试转化为成功的尝试。具体来说,即使模型未能完全满足所有指令约束,也可能满足了部分约束。HiR通过“选择-重写”策略,根据事后(hindsight)观察到的已满足的约束,对失败的响应进行修改,使其成为一个“伪成功”样本。这样可以增加训练样本的多样性,并提供更密集的奖励信号。

技术框架:HiR框架主要包含以下几个阶段:1) 原始样本生成:使用当前策略生成对指令的响应。2) 奖励评估:根据指令和响应,计算二元奖励信号(成功/失败)。3) 回溯重放:对于失败的样本,识别已满足的约束,并基于这些约束重写响应,生成新的“伪成功”样本。4) 强化学习训练:使用原始样本和重放的样本进行强化学习训练,优化策略。

关键创新:关键创新在于回溯指令重放机制,它将失败的尝试转化为有用的训练信号。与传统的强化学习方法不同,HiR不简单地丢弃失败的样本,而是利用这些样本中包含的信息,通过重写来创造新的训练数据。这种方法显著提高了样本效率,尤其是在奖励稀疏的环境中。

关键设计:HiR采用双重偏好学习目标,在指令级别和响应级别同时进行优化。在指令级别,模型学习区分不同的指令,并生成相应的响应。在响应级别,模型学习生成满足约束的响应。损失函数的设计旨在最大化成功样本的概率,同时最小化失败样本的概率。具体的技术细节包括如何选择和重写响应,以及如何平衡原始样本和重放样本的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HiR在不同的指令跟随任务中取得了显著的性能提升,尤其是在奖励稀疏的环境中。与基线方法相比,HiR能够更快地学习到有效的策略,并达到更高的性能水平。此外,HiR还降低了计算成本,提高了样本效率,使得在有限的计算资源下训练复杂的指令跟随模型成为可能。

🎯 应用场景

HiR方法可应用于各种需要指令跟随的场景,例如机器人控制、对话系统、代码生成等。通过提高样本效率,HiR可以降低训练成本,并使模型能够更好地理解和执行复杂的指令。该研究对于开发更智能、更灵活的人工智能系统具有重要意义。

📄 摘要(原文)

Reinforcement Learning (RL) has shown promise for aligning Large Language Models (LLMs) to follow instructions with various constraints. Despite the encouraging results, RL improvement inevitably relies on sampling successful, high-quality responses; however, the initial model often struggles to generate responses that satisfy all constraints due to its limited capabilities, yielding sparse or indistinguishable rewards that impede learning. In this work, we propose Hindsight instruction Replay (HiR), a novel sample-efficient RL framework for complex instruction following tasks, which employs a select-then-rewrite strategy to replay failed attempts as successes based on the constraints that have been satisfied in hindsight. We perform RL on these replayed samples as well as the original ones, theoretically framing the objective as dual-preference learning at both the instruction- and response-level to enable efficient optimization using only a binary reward signal. Extensive experiments demonstrate that the proposed HiR yields promising results across different instruction following tasks, while requiring less computational budget. Our code and dataset is available at https://github.com/sastpg/HIR.