StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning

📄 arXiv: 2605.27140v1 📥 PDF

作者: Yanfei Zhang, Xu Lin, Chenglin Wu

分类: cs.AI

发布日期: 2026-05-26


💡 一句话要点

提出StepOPSD:一种步感知的在线偏好蒸馏方法,提升Agent强化学习的局部决策能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 在线策略蒸馏 信用分配 多轮Agent 局部决策 步感知 因果推理

📋 核心要点

  1. 多轮Agent强化学习面临信用分配难题,轨迹级别奖励难以指导关键局部决策。
  2. StepOPSD将轨迹分解为步片段,利用事后教师上下文重评分,实现步感知的偏好蒸馏。
  3. 实验表明,StepOPSD在ALFWorld和Search-QA等任务上,显著提升了局部因果推理能力。

📝 摘要(中文)

本文提出StepOPSD,一种后验回滚的偏好自蒸馏框架,用于解决多轮Agent强化学习中信用分配不匹配的问题。该问题源于奖励的稀疏性和轨迹级别,而成功往往取决于一些局部决策。StepOPSD将轨迹分解为以动作为中心的步片段,在事后诸葛亮式的教师上下文中重新评分,并将token级别的对数概率差距转换为符号保持的优势塑造,并在GRPO更新之前使用归一化的每步信用预算。在ALFWorld和Search-QA数据集上,使用Qwen3-1.7B和Qwen2.5-3B-Instruct模型,StepOPSD在对局部因果错误最敏感的子集上取得了最佳或次佳的结果,包括在ALFWorld Heat (79.1%)、PickTwo (95.0%)、Search-QA TriviaQA (61.6%)上获得第一名,以及在HotpotQA (40.4%)上获得并列最佳性能。结果进一步揭示了一个一致的双旋钮定律:较小的α_clip作为广泛稳定的局部信任区域,而最佳全局混合强度λ_mix仍然是任务相关的。这些发现表明,当轨迹级别的奖励与决定下游成功的局部动作弱对齐时,步感知蒸馏是最有用的。

🔬 方法详解

问题定义:多轮Agent强化学习任务中,奖励通常是稀疏的、轨迹级别的,而Agent的成功往往依赖于少数几个关键的局部决策。现有的在线策略蒸馏(OPD)方法虽然提供了更密集的token级别监督,但通常将异构的Agent轨迹视为单一的字符串,忽略了轨迹中蕴含的因果交互单元,导致信用分配不准确,难以有效指导局部决策。

核心思路:StepOPSD的核心思路是将Agent的轨迹分解为以动作为中心的步片段,然后利用更强的“教师”模型,在“事后诸葛亮”式的上下文中对这些步片段进行重新评分。通过这种方式,可以将轨迹级别的奖励更细粒度地分配到每个步片段上,从而更有效地指导Agent的局部决策。

技术框架:StepOPSD是一个后验回滚的偏好自蒸馏框架,主要包含以下几个阶段:1) Agent与环境交互,生成轨迹数据;2) 将轨迹分解为以动作为中心的步片段;3) 使用教师模型(通常是Agent自身的历史版本或更强的模型)在事后诸葛亮式的上下文中对每个步片段进行重新评分;4) 将token级别的对数概率差距转换为符号保持的优势塑造,并使用归一化的每步信用预算;5) 使用GRPO(Generalized Policy Optimization)算法更新Agent的策略。

关键创新:StepOPSD最重要的创新点在于其步感知的信用分配机制。与传统的OPD方法将整个轨迹视为一个整体不同,StepOPSD将轨迹分解为步片段,并根据每个步片段对最终结果的贡献程度进行信用分配。这种步感知的信用分配机制能够更准确地指导Agent的局部决策,从而提高Agent的整体性能。与现有方法的本质区别在于,StepOPSD关注的是局部因果关系,而传统方法更关注全局轨迹。

关键设计:StepOPSD的关键设计包括:1) 如何定义步片段(以动作为中心);2) 如何选择教师模型(Agent自身的历史版本或更强的模型);3) 如何在事后诸葛亮式的上下文中对步片段进行重新评分(使用教师模型的策略);4) 如何将token级别的对数概率差距转换为优势函数(符号保持的优势塑造);5) 如何设置每步信用预算(归一化)。论文还发现两个关键参数:较小的α_clip作为广泛稳定的局部信任区域,而最佳全局混合强度λ_mix仍然是任务相关的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

StepOPSD在ALFWorld和Search-QA数据集上取得了显著的性能提升。在ALFWorld Heat任务上,StepOPSD取得了79.1%的成功率,排名第一;在PickTwo任务上,成功率达到95.0%,排名第一;在Search-QA TriviaQA任务上,成功率为61.6%,排名第一;在HotpotQA任务上,成功率为40.4%,并列第一。这些结果表明,StepOPSD能够有效提升Agent的局部因果推理能力,从而提高其在复杂任务中的表现。

🎯 应用场景

StepOPSD可应用于各种需要多轮交互和复杂推理的Agent强化学习任务,例如对话系统、游戏AI、机器人控制等。通过提升Agent的局部决策能力,StepOPSD可以帮助Agent更好地理解环境、做出更合理的决策,从而提高任务完成的成功率和效率。该研究对于提升Agent的智能水平和拓展其应用范围具有重要意义。

📄 摘要(原文)

Reinforcement learning for multi-turn agents suffers from a credit-assignment mismatch: rewards are sparse and trajectory-level, while success often hinges on a few local decisions. Existing online policy distillation (OPD) provides denser token-level supervision, but typically treats heterogeneous agent trajectories as monolithic strings rather than causal interaction units. We present StepOPSD, a post-rollout preference self-distillation framework that takes the agent step as the unit of credit redistribution. StepOPSD decomposes trajectories into action-centered step segments, rescoring them under hindsight-enriched teacher contexts and converting token-level log-probability gaps into sign-preserving advantage shaping with a normalized per-step credit budget before the GRPO update. Across ALFWorld and Search-QA with Qwen3-1.7B and Qwen2.5-3B-Instruct, StepOPSD attains best or second-best results on subsets most sensitive to local causal errors, including first-place performance on ALFWorld Heat (79.1%), PickTwo (95.0%), Search-QA TriviaQA (61.6%), and tied-best performance on HotpotQA (40.4%). The results further reveal a consistent two-knob law: smaller α_clip acts as a broadly stabilizing local trust region, whereas the optimal global mixing strength λ_mix remains task-dependent. These findings suggest that step-aware distillation is most useful when trajectory-level rewards are weakly aligned with the local action that determines downstream success.