Counteraction-Aware Multi-Teacher On-Policy Distillation for General Capability Recovery with Domain Preservation

📄 arXiv: 2605.27115v1 📥 PDF

作者: Tianlei Chen, Jiao Ou, Ziyuan Liu, Ruiming Tang, Jian Liang, Han Li

分类: cs.AI

发布日期: 2026-05-26


💡 一句话要点

提出CaMOPD,通过对抗解耦和差距采样,提升领域模型通用能力恢复效果。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多教师蒸馏 On-Policy学习 通用能力恢复 领域知识保持 对抗解耦 差距采样 大型语言模型

📋 核心要点

  1. 现有MOPD方法在通用能力恢复时,假设教师prompt覆盖一致,这在开源模型中难以满足,导致恢复效果不佳。
  2. CaMOPD通过解耦通用能力恢复和领域能力保持的训练过程,并使用差距采样集中校正信号,解决恢复-保持对抗和弱信号扁平化问题。
  3. 实验表明,CaMOPD在角色扮演对话和医学推理QA场景中,能有效恢复通用能力,同时保持领域特定行为。

📝 摘要(中文)

领域专精可以提升大型语言模型(LLM)在垂直领域的表现,但通常会削弱其从原始模型继承的通用能力。最近的多教师On-Policy蒸馏(MOPD)通过教师反馈监督学生生成的轨迹来恢复模型能力,但通常假设教师对prompt的覆盖范围是一致的,要求prompt与教师的训练分布相匹配。当通用教师是一个开源模型,其后训练数据未知时,这个假设很难满足。本文研究了使用现成的代理通用prompt进行通用能力恢复。我们发现,在不完全覆盖的情况下,vanilla MOPD存在两种失效模式:来自混合冲突的恢复和保持梯度的恢复-保持对抗,以及来自均匀平均具有不平等校正需求的样本的弱信号扁平化。我们提出了对抗感知多教师On-Policy蒸馏(CaMOPD),通过解耦交替训练和基于差距的样本选择来解决这些问题。CaMOPD为通用恢复提供专门的更新,定期审查领域prompt以进行保持,并选择具有较大平均token级教师-学生对数概率差距的样本,以集中校正信号。在角色扮演对话和医学推理QA场景中,CaMOPD在通用恢复方面优于基线,同时保持了领域特定行为。梯度一致性分析进一步支持了CaMOPD在产生更一致的校正信号方面的预期效果。

🔬 方法详解

问题定义:论文旨在解决领域专精模型通用能力退化的问题。现有Multi-Teacher On-Policy Distillation (MOPD)方法在恢复通用能力时,假设教师模型对prompt的覆盖范围是完整的,即prompt分布与教师模型的训练分布一致。然而,当通用教师模型是开源模型时,其训练数据未知,难以满足这一假设,导致恢复效果不佳。此外,直接混合通用能力恢复和领域能力保持的梯度会导致冲突,而均匀采样会弱化校正信号。

核心思路:CaMOPD的核心思路是通过解耦通用能力恢复和领域能力保持的训练过程,并采用差距采样策略,来解决恢复-保持对抗和弱信号扁平化问题。具体来说,CaMOPD采用交替训练的方式,分别针对通用能力恢复和领域能力保持进行优化。同时,CaMOPD通过计算教师和学生模型在token级别的对数概率差距,选择差距较大的样本进行训练,从而集中校正信号。

技术框架:CaMOPD的整体框架包括以下几个主要模块:1) Prompt选择模块:选择通用prompt和领域prompt。2) 轨迹生成模块:使用学生模型生成轨迹。3) 教师反馈模块:使用教师模型对学生模型生成的轨迹进行评估,提供反馈。4) 差距计算模块:计算教师和学生模型在token级别的对数概率差距。5) 样本选择模块:根据差距大小选择样本。6) 模型更新模块:使用选择的样本更新学生模型,分别进行通用能力恢复和领域能力保持。

关键创新:CaMOPD的关键创新在于:1) 提出了对抗解耦训练策略,将通用能力恢复和领域能力保持的训练过程解耦,避免梯度冲突。2) 提出了基于差距的样本选择策略,通过选择教师和学生模型差距较大的样本进行训练,集中校正信号,提高训练效率。

关键设计:CaMOPD的关键设计包括:1) 交替训练的周期性设置:需要平衡通用能力恢复和领域能力保持的训练次数。2) 差距计算方式:采用token级别的对数概率差距,能够更准确地反映教师和学生模型之间的差异。3) 样本选择策略:选择差距较大的top-k个样本,需要根据具体任务调整k的大小。4) 损失函数设计:分别设计通用能力恢复和领域能力保持的损失函数,例如可以使用KL散度或交叉熵损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CaMOPD在角色扮演对话和医学推理QA场景中,通用能力恢复效果优于基线方法,同时保持了领域特定行为。梯度一致性分析表明,CaMOPD能够产生更一致的校正信号,验证了其设计的有效性。具体性能数据在论文中给出,表明CaMOPD在各项指标上均有显著提升。

🎯 应用场景

CaMOPD可应用于各种需要领域专精和通用能力兼备的LLM应用场景,例如医疗问答、金融分析、法律咨询等。通过该方法,可以提升领域模型在特定领域的专业能力,同时保持其在通用任务上的表现,从而提高模型的实用性和泛化能力。未来,该方法可以进一步扩展到多模态领域,例如图像问答、视频理解等。

📄 摘要(原文)

Domain specialization can improve LLM behavior in vertical domains, but often weakens the general capabilities inherited from the original model. Recent Multi-Teacher On-Policy Distillation (MOPD) pipelines recover model capabilities by supervising student-generated trajectories with teacher feedback, but typically assume teacher-aligned prompt coverage, requiring prompts to match the teachers' training distributions. This assumption is difficult to satisfy when the general teacher is an open-source model whose post-training data are unknown. Instead of attempting to reconstruct this hidden distribution, we study general capability recovery with readily available proxy general prompts. We identify two failure modes of vanilla MOPD in this incomplete-coverage situation: recovery-preservation counteraction from mixing conflicting recovery and preservation gradients, and weak-signal flattening from uniformly averaging samples with unequal correction demand. We propose Counteraction-Aware Multi-Teacher On-Policy Distillation (CaMOPD), which addresses these issues with decoupled alternating training and gap-based sample selection. CaMOPD gives general recovery dedicated updates, periodically reviews domain prompts for preservation, and selects samples with larger averaged token-level teacher-student log-probability gaps to concentrate correction signals. Across role-play dialogue and medical reasoning QA scenarios, CaMOPD performs best in general recovery over baselines while maintaining domain-specific behavior. Gradient coherence analyses further support the intended effect of CaMOPD in producing more coherent correction signals.