From Correction to Mastery: Reinforced Distillation of Large Language Model Agents

作者: Yuanjie Lyu, Chengyu Wang, Jun Huang, Tong Xu

分类: cs.CL, cs.AI

发布日期: 2025-09-12 (更新: 2025-10-09)

💡 一句话要点

提出SCoRe框架，通过强化蒸馏提升小模型Agent在复杂任务中的性能，媲美大模型。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型Agent 蒸馏训练 强化学习 知识迁移 模型压缩

📋 核心要点

大型语言模型Agent依赖超大模型，成本高昂，而直接模仿教师模型轨迹的蒸馏方法易产生误差累积。
SCoRe框架以学生为中心，通过教师纠正学生轨迹中的首个错误，并进行强化学习，提升学生自主解决问题的能力。
实验结果表明，使用SCoRe蒸馏的70亿参数学生模型，在Agent任务上达到了720亿参数教师模型的性能。

📝 摘要（中文）

大型语言模型Agent擅长通过迭代推理和工具使用解决复杂任务，但通常依赖于超大型、高成本的backbone。现有的蒸馏方法训练较小的学生模型来模仿完整的教师模型轨迹，但教师和学生之间推理和知识的差距可能导致误差累积。我们提出了SCoRe，一个以学生为中心的框架，其中学生生成训练轨迹，教师仅纠正最早的错误，从而产生与学生能力相匹配的训练数据，并暴露特定的弱点。学生首先在纠正后的轨迹上进行微调。随后，从验证过的、最早错误之前的前缀开始，进行短视距强化学习，并在该步骤分配目标奖励。这种设计鼓励超越模仿的自主问题解决，并增强训练稳定性。在12个具有挑战性的基准测试中，使用SCoRe蒸馏的70亿参数学生模型匹配了720亿参数教师模型的Agent性能。

🔬 方法详解

问题定义：现有的大型语言模型Agent虽然在复杂任务中表现出色，但依赖于参数量巨大的模型，计算成本高昂。传统的蒸馏方法直接让小模型（学生模型）模仿大模型（教师模型）的完整推理轨迹，然而，由于学生模型能力有限，在推理过程中容易出现错误，这些错误会随着推理步骤的增加而累积，导致性能下降。因此，如何有效地将大型语言模型Agent的能力迁移到小型模型，同时避免误差累积，是一个亟待解决的问题。

核心思路：SCoRe的核心思路是以学生模型为中心，让学生模型主动探索问题空间，并由教师模型提供针对性的纠正。具体来说，学生模型首先生成自己的推理轨迹，然后教师模型只纠正学生模型轨迹中出现的第一个错误。这样可以确保训练数据与学生模型的能力相匹配，并暴露学生模型的特定弱点。此外，SCoRe还利用强化学习，鼓励学生模型在教师模型纠正的基础上，进一步探索更优的解决方案，从而提升其自主解决问题的能力。

技术框架：SCoRe框架主要包含两个阶段：纠正轨迹微调阶段和强化学习阶段。在纠正轨迹微调阶段，学生模型首先生成推理轨迹，教师模型纠正轨迹中的第一个错误，然后使用纠正后的轨迹对学生模型进行微调。在强化学习阶段，从验证过的、最早错误之前的前缀开始，进行短视距强化学习，并在该步骤分配目标奖励。目标奖励的设计旨在鼓励学生模型在教师模型纠正的基础上，进一步探索更优的解决方案。

关键创新：SCoRe最重要的创新点在于其以学生为中心的训练方式。与传统的蒸馏方法不同，SCoRe不是简单地让学生模型模仿教师模型的轨迹，而是让学生模型主动探索问题空间，并由教师模型提供针对性的纠正。这种方式可以更好地利用学生模型的能力，并避免误差累积。此外，SCoRe还利用强化学习，鼓励学生模型在教师模型纠正的基础上，进一步探索更优的解决方案，从而提升其自主解决问题的能力。

关键设计：SCoRe的关键设计包括：1) 教师模型只纠正学生模型轨迹中的第一个错误，以确保训练数据与学生模型的能力相匹配；2) 使用短视距强化学习，以避免奖励稀疏问题；3) 目标奖励的设计旨在鼓励学生模型在教师模型纠正的基础上，进一步探索更优的解决方案。具体的损失函数和网络结构等细节未在摘要中详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，使用SCoRe蒸馏的70亿参数学生模型，在12个具有挑战性的基准测试中，匹配了720亿参数教师模型的Agent性能。这意味着SCoRe框架能够有效地将大型语言模型Agent的能力迁移到小型模型，并且在性能上取得了显著的提升。具体的性能数据和对比基线未在摘要中详细说明，属于未知信息。

🎯 应用场景

SCoRe框架可应用于各种需要大型语言模型Agent的场景，例如智能客服、自动化报告生成、代码生成等。通过将大型语言模型Agent的能力迁移到小型模型，可以降低计算成本，并使其能够在资源受限的环境中部署。该研究对于推动大型语言模型Agent的普及具有重要意义，并有望在未来得到广泛应用。

📄 摘要（原文）

Large Language Model agents excel at solving complex tasks through iterative reasoning and tool use, but typically depend on ultra-large, costly backbones. Existing distillation approaches train smaller students to imitate full teacher trajectories, yet reasoning and knowledge gaps between the teacher and student can cause compounding errors. We propose SCoRe, a student-centered framework in which the student generates training trajectories and the teacher corrects only the earliest error, producing training data matched to the student's ability and exposing specific weaknesses. The student is first fine-tuned on corrected trajectories. Subsequently, short-horizon reinforcement learning starts from the verified prefix preceding the earliest error, with target rewards assigned at that step. This design encourages autonomous problem-solving beyond imitation and enhances training stability. On 12 challenging benchmarks, a 7B-parameter student distilled with SCoRe matches the agentic performance of a 72B-parameter teacher.

From Correction to Mastery: Reinforced Distillation of Large Language Model Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理