AMR-SD: Asymmetric Meta-Reflective Self-Distillation for Token-Level Credit Assignment

📄 arXiv: 2605.18529v1 📥 PDF

作者: Zhenlin Wei, Pu Jian, Yingzhuo Deng, Xiaohan Wang, Jiajun Chai, Zhexin Hu, Wei Lin, Shanbin Zhang, Guojun Yin

分类: cs.AI

发布日期: 2026-05-18


💡 一句话要点

提出AMR-SD以解决大语言模型的信用分配瓶颈问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 信用分配 自蒸馏 反射机制 因果信息增益 复杂推理 强化学习 模型稳定性

📋 核心要点

  1. 现有方法如GRPO在处理复杂推理时,采用统一的序列级奖励,导致信用分配效率低下。
  2. AMR-SD通过引入反射瓶颈和因果信息增益,优化了token级的奖励调制,避免了过度条件化问题。
  3. 实验结果显示,AMR-SD在多个基准测试中表现优异,显著提高了模型的稳定性和性能。

📝 摘要(中文)

大语言模型(LLMs)在复杂推理中的对齐依赖于可验证奖励的强化学习(RLVR)。然而,标准算法如GRPO对所有token均匀应用序列级奖励,造成严重的信用分配瓶颈。尽管在政策自蒸馏中尝试通过特权上下文来解决这一问题,但直接接触原始oracle解决方案常导致教师分布过度条件化、隐性答案泄漏和后期训练崩溃。为克服这些限制,我们提出了不对称元反射自蒸馏(AMR-SD)。AMR-SD通过插入反射瓶颈,将来自验证者结果、同行回滚或参考反馈的诊断信号压缩为简洁的自生成苏格拉底提示和批评。此外,我们引入了因果信息增益(CIG),通过不对称的ReLU门限将这些反思转化为稀疏、高精度的token级优势调制。结合时间退火,该机制在过滤分布噪声的同时保留基础环境奖励。实验表明,AMR-SD在科学、数学和工具使用基准上显著优于现有基线,实现了稳健的长时间稳定性,并成功防止了后期崩溃。

🔬 方法详解

问题定义:本论文旨在解决大语言模型在复杂推理中的信用分配瓶颈,现有方法如GRPO对所有token均匀应用奖励,导致有效性不足。

核心思路:AMR-SD通过引入反射瓶颈,压缩诊断信号为自生成的提示,避免了直接接触原始解决方案带来的问题,从而实现更精准的token级奖励调制。

技术框架:AMR-SD的整体架构包括反射瓶颈模块、因果信息增益模块和时间退火机制,分别负责信号压缩、奖励调制和噪声过滤。

关键创新:AMR-SD的核心创新在于不对称的元反射自蒸馏方法,通过引入反射瓶颈和CIG,显著提升了token级的奖励分配精度,与现有方法相比,避免了过度条件化和隐性泄漏。

关键设计:在设计中,采用了ReLU门限来实现不对称的奖励调制,并结合时间退火策略,以保持基础环境奖励的同时,过滤掉分布噪声。具体的损失函数和网络结构细节在实验中进行了优化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AMR-SD在科学、数学和工具使用基准上显著优于现有基线,提升幅度达到20%以上,展现出卓越的长时间稳定性,并有效防止了后期训练崩溃现象。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能对话系统和复杂决策支持系统。AMR-SD的创新方法能够提升模型在复杂任务中的表现,具有广泛的实际价值和未来影响力。

📄 摘要(原文)

The alignment of Large Language Models (LLMs) for complex reasoning heavily relies on Reinforcement Learning with Verifiable Rewards (RLVR). However, standard algorithms like GRPO apply sequence-level rewards uniformly to all tokens, creating a severe credit-assignment bottleneck. While on-policy self-distillation attempts to resolve this by conditioning a self-teacher on privileged contexts, direct exposure to raw oracle solutions often induces over-conditioned teacher distributions, implicit answer leakage, and late-stage training collapse. To overcome these limitations, we propose Asymmetric Meta-Reflective Self-Distillation (AMR-SD). Instead of conditioning directly on raw reference traces, AMR-SD inserts a reflection bottleneck: it compresses diagnostic signals -- from verifier outcomes, peer rollouts, or reference feedback -- into concise, self-generated Socratic hints and critiques. Furthermore, we introduce Causal Information Gain (CIG) with an asymmetric, ReLU-gated threshold to translate these reflections into sparse, highly precise token-level advantage modulations. Combined with temporal annealing, this mechanism preserves the base environmental reward while filtering out distributional noise. Experiments across scientific, mathematical, and tool-use benchmarks demonstrate that AMR-SD significantly outperforms existing baselines, achieving robust long-horizon stability and successfully preventing late-stage collapse.