GEAR: Granularity-Adaptive Advantage Reweighting for LLM Agents via Self-Distillation

📄 arXiv: 2605.11853v1 📥 PDF

作者: Sijia Li, Yuchen Huang, Zifan Liu, Yanping Li, Jingjing Fu, Li Zhao, Jiang Bian, Ling Zhang, Jun Zhang, Rui Wang

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-05-12


💡 一句话要点

提出GEAR框架,通过自蒸馏实现LLM Agent的细粒度自适应优势重加权,提升长程任务性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: LLM Agent 强化学习 自蒸馏 优势重加权 细粒度信用分配

📋 核心要点

  1. 现有LLM Agent强化学习方法依赖粗粒度的结果级奖励,缺乏细粒度的信用分配,导致策略更新效率低下。
  2. GEAR框架通过自蒸馏,利用token和segment级别的差异信号,自适应地调整优势函数权重,实现细粒度的信用分配。
  3. 实验结果表明,GEAR在多个基准测试中显著优于现有方法,尤其在长程任务和低基线准确率场景下提升明显。

📝 摘要(中文)

强化学习已成为LLM Agent常用的后训练方法,但训练通常依赖于仅提供粗略监督的结果级奖励。更细粒度的信用分配有望实现有效的策略更新,但获得可靠的局部信用并将其分配给长程轨迹的正确部分仍然是一个开放的挑战。本文提出了粒度自适应优势重加权(GEAR),这是一种自适应粒度的信用分配框架,它使用从自蒸馏中获得的token和segment级别的信号来重塑轨迹级别的GRPO优势。GEAR比较了on-policy学生模型和ground-truth条件下的教师模型,以获得参考引导的差异信号,用于识别自适应segment边界和调整局部优势权重。这种差异通常在语义偏差开始时达到峰值,而同一自回归延续中的后续token可能会恢复到低差异。因此,GEAR将此类峰值视为自适应信用区域的锚点:学生模型与教师模型保持一致的地方,保留token级别的分辨率;学生模型偏离的地方,GEAR将相应的延续分组为自适应segment,并使用偏离点的差异来调整segment的优势。在Qwen3 4B和8B模型上进行的八个数学推理和Agent工具使用基准测试表明,GEAR始终优于标准GRPO、仅自蒸馏的基线以及token或turn级别的信用分配方法。在GRPO基线准确率较低的基准测试中,增益尤其强劲,比GRPO高出约20%,这表明所提出的自适应重加权方案在更具挑战性的长程设置中特别有用。

🔬 方法详解

问题定义:现有LLM Agent的强化学习训练主要依赖于结果级别的奖励信号,这种粗粒度的奖励方式无法准确地将功劳或错误分配到轨迹中的具体步骤,导致策略学习效率低下,尤其是在长程任务中,问题更加严重。现有方法难以有效识别并利用轨迹中的关键决策点,进行细粒度的信用分配。

核心思路:GEAR的核心思路是通过自蒸馏,利用一个ground-truth条件下的教师模型作为参考,来指导学生模型的训练。通过比较学生模型和教师模型在token和segment级别的输出差异,可以获得细粒度的偏差信号,这些信号可以用来识别轨迹中的关键决策点,并自适应地调整优势函数的权重,从而实现更有效的信用分配。

技术框架:GEAR框架主要包含以下几个步骤:1) 使用GRPO等方法训练一个初始的学生模型;2) 构建一个ground-truth条件下的教师模型;3) 学生模型生成轨迹,并与教师模型的轨迹进行比较,计算token和segment级别的差异信号;4) 利用差异信号自适应地划分轨迹为不同的segment,并根据segment的差异程度调整优势函数的权重;5) 使用调整后的优势函数更新学生模型。

关键创新:GEAR的关键创新在于提出了自适应粒度的信用分配机制。它不是简单地使用token级别或segment级别的固定粒度,而是根据学生模型和教师模型的差异动态地调整粒度。在学生模型与教师模型一致的地方,保留token级别的分辨率;在学生模型偏离教师模型的地方,将相应的延续分组为自适应segment。这种自适应的粒度划分方式可以更准确地捕捉到轨迹中的关键决策点,并进行更有效的信用分配。

关键设计:GEAR的关键设计包括:1) 使用KL散度等方法计算学生模型和教师模型在token级别的输出差异;2) 使用差异信号的峰值作为segment的边界;3) 使用差异信号的峰值来调整segment的优势权重,差异越大,权重越高;4) 使用标准的GRPO损失函数,但使用调整后的优势函数进行训练。

📊 实验亮点

在Qwen3 4B和8B模型上,GEAR在八个数学推理和Agent工具使用基准测试中均优于标准GRPO、仅自蒸馏的基线以及token或turn级别的信用分配方法。在GRPO基线准确率较低的基准测试中,GEAR的增益尤其显著,最高可达20%。这表明GEAR在更具挑战性的长程设置中具有显著优势。

🎯 应用场景

GEAR框架可应用于各种需要长程推理和决策的LLM Agent任务,例如数学问题求解、代码生成、机器人控制、游戏AI等。通过提升Agent在复杂任务中的表现,可以提高自动化水平,降低人工干预成本,并为Agent在现实世界中的应用奠定基础。

📄 摘要(原文)

Reinforcement learning has become a widely used post-training approach for LLM agents, where training commonly relies on outcome-level rewards that provide only coarse supervision. While finer-grained credit assignment is promising for effective policy updates, obtaining reliable local credit and assigning it to the right parts of the long-horizon trajectory remains an open challenge. In this paper, we propose Granularity-adaptivE Advantage Reweighting (GEAR), an adaptive-granularity credit assignment framework that reshapes the trajectory-level GRPO advantage using token- and segment-level signals derived from self-distillation. GEAR compares an on-policy student with a ground-truth-conditioned teacher to obtain a reference-guided divergence signal for identifying adaptive segment boundaries and modulating local advantage weights. This divergence often spikes at the onset of a semantic deviation, while later tokens in the same autoregressive continuation may return to low divergence. GEAR therefore treats such spikes as anchors for adaptive credit regions: where the student remains aligned with the teacher, token-level resolution is preserved; where it departs, GEAR groups the corresponding continuation into an adaptive segment and uses the divergence at the departure point to modulate the segment' s advantage. Experiments across eight mathematical reasoning and agentic tool-use benchmarks with Qwen3 4B and 8B models show that GEAR consistently outperforms standard GRPO, self-distillation-only baselines, and token- or turn-level credit-assignment methods. The gains are especially strong on benchmarks with lower GRPO baseline accuracy, reaching up to around 20\% over GRPO, suggesting that the proposed adaptive reweighting scheme is especially useful in more challenging long-horizon settings.