StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning

作者: Yanfei Zhang, Xu Lin, Chenglin Wu

分类: cs.AI

发布日期: 2026-05-26

💡 一句话要点

提出StepOPSD：一种步感知的在线偏好蒸馏方法，提升Agent强化学习的局部决策能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 在线策略蒸馏 信用分配 多轮Agent 局部决策 步感知 因果推理

📋 核心要点

多轮Agent强化学习面临信用分配难题，轨迹级别奖励难以指导关键局部决策。
StepOPSD将轨迹分解为步片段，利用事后教师上下文重评分，实现步感知的偏好蒸馏。
实验表明，StepOPSD在ALFWorld和Search-QA等任务上，显著提升了局部因果推理能力。

📝 摘要（中文）

本文提出StepOPSD，一种后验回滚的偏好自蒸馏框架，用于解决多轮Agent强化学习中信用分配不匹配的问题。该问题源于奖励的稀疏性和轨迹级别，而成功往往取决于一些局部决策。StepOPSD将轨迹分解为以动作为中心的步片段，在事后诸葛亮式的教师上下文中重新评分，并将token级别的对数概率差距转换为符号保持的优势塑造，并在GRPO更新之前使用归一化的每步信用预算。在ALFWorld和Search-QA数据集上，使用Qwen3-1.7B和Qwen2.5-3B-Instruct模型，StepOPSD在对局部因果错误最敏感的子集上取得了最佳或次佳的结果，包括在ALFWorld Heat (79.1%)、PickTwo (95.0%)、Search-QA TriviaQA (61.6%)上获得第一名，以及在HotpotQA (40.4%)上获得并列最佳性能。结果进一步揭示了一个一致的双旋钮定律：较小的α_clip作为广泛稳定的局部信任区域，而最佳全局混合强度λ_mix仍然是任务相关的。这些发现表明，当轨迹级别的奖励与决定下游成功的局部动作弱对齐时，步感知蒸馏是最有用的。

🔬 方法详解

问题定义：多轮Agent强化学习任务中，奖励通常是稀疏的、轨迹级别的，而Agent的成功往往依赖于少数几个关键的局部决策。现有的在线策略蒸馏(OPD)方法虽然提供了更密集的token级别监督，但通常将异构的Agent轨迹视为单一的字符串，忽略了轨迹中蕴含的因果交互单元，导致信用分配不准确，难以有效指导局部决策。

核心思路：StepOPSD的核心思路是将Agent的轨迹分解为以动作为中心的步片段，然后利用更强的“教师”模型，在“事后诸葛亮”式的上下文中对这些步片段进行重新评分。通过这种方式，可以将轨迹级别的奖励更细粒度地分配到每个步片段上，从而更有效地指导Agent的局部决策。

技术框架：StepOPSD是一个后验回滚的偏好自蒸馏框架，主要包含以下几个阶段：1) Agent与环境交互，生成轨迹数据；2) 将轨迹分解为以动作为中心的步片段；3) 使用教师模型（通常是Agent自身的历史版本或更强的模型）在事后诸葛亮式的上下文中对每个步片段进行重新评分；4) 将token级别的对数概率差距转换为符号保持的优势塑造，并使用归一化的每步信用预算；5) 使用GRPO（Generalized Policy Optimization）算法更新Agent的策略。

关键创新：StepOPSD最重要的创新点在于其步感知的信用分配机制。与传统的OPD方法将整个轨迹视为一个整体不同，StepOPSD将轨迹分解为步片段，并根据每个步片段对最终结果的贡献程度进行信用分配。这种步感知的信用分配机制能够更准确地指导Agent的局部决策，从而提高Agent的整体性能。与现有方法的本质区别在于，StepOPSD关注的是局部因果关系，而传统方法更关注全局轨迹。

关键设计：StepOPSD的关键设计包括：1) 如何定义步片段（以动作为中心）；2) 如何选择教师模型（Agent自身的历史版本或更强的模型）；3) 如何在事后诸葛亮式的上下文中对步片段进行重新评分（使用教师模型的策略）；4) 如何将token级别的对数概率差距转换为优势函数（符号保持的优势塑造）；5) 如何设置每步信用预算（归一化）。论文还发现两个关键参数：较小的α_clip作为广泛稳定的局部信任区域，而最佳全局混合强度λ_mix仍然是任务相关的。

🖼️ 关键图片

📊 实验亮点

StepOPSD在ALFWorld和Search-QA数据集上取得了显著的性能提升。在ALFWorld Heat任务上，StepOPSD取得了79.1%的成功率，排名第一；在PickTwo任务上，成功率达到95.0%，排名第一；在Search-QA TriviaQA任务上，成功率为61.6%，排名第一；在HotpotQA任务上，成功率为40.4%，并列第一。这些结果表明，StepOPSD能够有效提升Agent的局部因果推理能力，从而提高其在复杂任务中的表现。

🎯 应用场景

StepOPSD可应用于各种需要多轮交互和复杂推理的Agent强化学习任务，例如对话系统、游戏AI、机器人控制等。通过提升Agent的局部决策能力，StepOPSD可以帮助Agent更好地理解环境、做出更合理的决策，从而提高任务完成的成功率和效率。该研究对于提升Agent的智能水平和拓展其应用范围具有重要意义。

📄 摘要（原文）

Reinforcement learning for multi-turn agents suffers from a credit-assignment mismatch: rewards are sparse and trajectory-level, while success often hinges on a few local decisions. Existing online policy distillation (OPD) provides denser token-level supervision, but typically treats heterogeneous agent trajectories as monolithic strings rather than causal interaction units. We present StepOPSD, a post-rollout preference self-distillation framework that takes the agent step as the unit of credit redistribution. StepOPSD decomposes trajectories into action-centered step segments, rescoring them under hindsight-enriched teacher contexts and converting token-level log-probability gaps into sign-preserving advantage shaping with a normalized per-step credit budget before the GRPO update. Across ALFWorld and Search-QA with Qwen3-1.7B and Qwen2.5-3B-Instruct, StepOPSD attains best or second-best results on subsets most sensitive to local causal errors, including first-place performance on ALFWorld Heat (79.1%), PickTwo (95.0%), Search-QA TriviaQA (61.6%), and tied-best performance on HotpotQA (40.4%). The results further reveal a consistent two-knob law: smaller α_clip acts as a broadly stabilizing local trust region, whereas the optimal global mixing strength λ_mix remains task-dependent. These findings suggest that step-aware distillation is most useful when trajectory-level rewards are weakly aligned with the local action that determines downstream success.

StepOPSD: Step-Aware Online Preference Distillation for Agent Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理