HINT-SD: Targeted Hindsight Self-Distillation for Long-Horizon Agents

📄 arXiv: 2605.17873v1 📥 PDF

作者: Woongyeng Yeo, Yumin Choi, Taekyung Ki, Sung Ju Hwang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-18


💡 一句话要点

HINT-SD:面向长程Agent的靶向后见之明自蒸馏方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 长程Agent 强化学习 自蒸馏 后见之明 靶向训练 稀疏奖励 行为克隆

📋 核心要点

  1. 长程Agent训练面临稀疏奖励问题,难以确定导致成功或失败的关键中间步骤。
  2. HINT-SD通过后见之明选择与失败相关的动作,并仅在这些目标动作上进行反馈条件蒸馏。
  3. 实验表明,HINT-SD在提升性能的同时,显著降低了训练时间,验证了靶向蒸馏的有效性。

📝 摘要(中文)

利用强化学习训练长程LLM Agent极具挑战,因为稀疏的结果奖励只揭示了任务是否成功,而没有揭示哪些中间动作导致了结果,或者应该如何纠正它们。最近的方法通过从turn级别的动作-输出信号生成奖励或文本提示,或者通过使用反馈条件自蒸馏来缓解这个问题。然而,当许多中间turn已经成功或中性时,在每个turn生成反馈是低效的,并且在固定或未对齐的turn应用反馈通常无法监督导致失败的动作。为了弥合这一差距,我们提出了HINT-SD,一个靶向自蒸馏框架,它使用完整的轨迹后见之明来选择与失败相关的动作,并且仅在目标动作跨度上应用反馈条件蒸馏。在BFCL v3和AppWorld上的实验表明,我们的方法比密集的每turn反馈基线提高了高达18.80%,同时每个训练步骤的时间降低了2.26倍,这表明选择在哪里进行蒸馏是有效和高效的长程Agent训练的关键因素。

🔬 方法详解

问题定义:长程Agent在稀疏奖励环境下训练困难,传统方法如逐turn反馈效率低下,且可能无法准确监督导致失败的关键动作。现有方法难以有效利用反馈信息,导致训练效率和最终性能受限。

核心思路:HINT-SD的核心在于利用后见之明,从完整轨迹中识别出与失败相关的关键动作序列,并仅针对这些序列进行反馈条件自蒸馏。通过聚焦于关键动作,避免了对无关动作的无效监督,提高了训练效率和效果。

技术框架:HINT-SD包含以下主要阶段:1) Agent与环境交互生成轨迹;2) 使用后见之明分析完整轨迹,确定导致失败的关键动作序列;3) 针对这些关键动作序列,生成相应的反馈信息;4) 使用反馈信息,对Agent进行自蒸馏训练,提升其在关键动作上的表现。

关键创新:HINT-SD最重要的创新在于其靶向性。与传统方法对所有动作进行无差别反馈不同,HINT-SD仅针对与失败相关的关键动作进行反馈,从而显著提高了训练效率和效果。这种靶向性使得Agent能够更有效地学习到解决问题的关键策略。

关键设计:HINT-SD的关键设计包括:1) 后见之明分析方法,用于准确识别与失败相关的关键动作序列;2) 反馈生成机制,用于为关键动作序列生成有效的反馈信息;3) 自蒸馏损失函数,用于指导Agent学习关键动作上的策略。具体的损失函数形式和网络结构细节在论文中进行了详细描述,可能包括交叉熵损失、KL散度等,以及针对特定任务设计的网络结构。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在BFCL v3和AppWorld两个benchmark上的实验结果表明,HINT-SD相比于密集的逐turn反馈基线,性能提升高达18.80%,同时每个训练步骤的时间降低了2.26倍。这些结果充分证明了HINT-SD在长程Agent训练中的有效性和效率。

🎯 应用场景

HINT-SD可应用于各种需要长程规划和决策的Agent训练,例如机器人导航、游戏AI、任务型对话系统等。该方法能够提高Agent在复杂环境中的学习效率和性能,使其能够更好地完成长期目标。未来,HINT-SD有望推动长程Agent在实际应用中的广泛部署。

📄 摘要(原文)

Training long-horizon LLM agents with reinforcement learning is challenging because sparse outcome rewards reveal whether a task succeeds, but not which intermediate actions caused the outcome or how they should be corrected. Recent methods alleviate this issue by generating rewards or textual hints from turn-level action-output signals, or by using feedback-conditioned self-distillation. However, generating feedback at every turn is inefficient when many intermediate turns are already successful or neutral, and applying feedback at a fixed or misaligned turn often fails to supervise the actions that contributed to the failure. To bridge this gap, we propose HINT-SD, a targeted self-distillation framework that uses full-trajectory hindsight to select failure-relevant actions and applies feedback-conditioned distillation only on targeted action spans. Experiments on BFCL v3 and AppWorld show that our method improves over the dense per-turn feedback baseline by up to 18.80 percent while achieving 2.26$\times$ lower time per training step, suggesting that selecting where to distill is a key factor for both effective and efficient long-horizon agent training.