Same Evidence, Different Answers: Canonical-Context On-Policy Distillation for Multi-Turn Language Models

📄 arXiv: 2605.30251v1 📥 PDF

作者: Zizhuo Lin, Quanling Liu, Jinsheng Quan, Chao Zhang, Yifan Zhu, Xing Shi, Jingtao Xu, Zhihui Li, Yawei Luo

分类: cs.CL, cs.AI

发布日期: 2026-05-28


💡 一句话要点

提出Canonical-Context On-Policy Distillation (CCOPD)以解决多轮对话中LLM的自锚定漂移问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 语言模型 知识蒸馏 自锚定漂移 On-Policy学习

📋 核心要点

  1. 现有LLM在单轮完整信息提示下表现良好,但在多轮对话中逐步给出相同信息时性能下降,主要原因是自锚定漂移。
  2. 论文提出Canonical-Context On-Policy Distillation (CCOPD),通过让学生模型模仿教师模型在完整上下文下的行为来减少自锚定漂移。
  3. CCOPD在数学问题对话上训练后,在RAW-SHARDED性能上比原始模型平均相对提高了32%,并保留了完整上下文性能。

📝 摘要(中文)

大型语言模型(LLMs)在所有指令都以单个提示给出时通常可以解决任务,但当相同的信息在多轮对话中逐步揭示时却会失败。当一个干净的FULL提示和一个RAW-SHARDED对话包含相同的完整用户证据时,模型应该仍然得出相同的答案。我们认为造成这种差距的一个关键原因是自锚定漂移:在部分信息下产生的响应引入了不支持的假设,而这些假设随后会扭曲最终答案。为了减少这种影响,我们提出了Canonical-Context On-Policy Distillation (CCOPD)。在训练期间,同一个基础模型被用于两个角色:一个以干净的FULL提示为条件的冻结教师模型,以及一个通过多轮对话逐步接收相同证据的可训练学生模型;CCOPD将学生模型在其自身轨迹上的行为与教师模型的规范完整上下文行为对齐。CCOPD仅在数学问题对话上进行训练,在数学和五个零样本跨领域任务族中,RAW-SHARDED性能比原始基础模型平均相对提高了32%,同时在很大程度上保留了完整上下文性能。进一步的分析表明,CCOPD加强了用户证据的基础,并降低了对早期助手轮次污染的敏感性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多轮对话中,由于信息逐步揭示而导致的性能下降问题。现有方法在处理完整上下文的单轮提示时表现良好,但当相同信息分散在多轮对话中时,模型容易受到早期不准确或不完整信息的误导,产生“自锚定漂移”,最终导致错误答案。这种现象表明模型未能充分利用所有可用的用户证据,并且对对话历史中的噪声过于敏感。

核心思路:论文的核心思路是通过知识蒸馏,让一个在多轮对话中逐步接收信息的学生模型,学习模仿一个在完整上下文中进行推理的教师模型的行为。通过这种方式,学生模型可以学习到如何更好地利用所有可用的用户证据,减少对早期不准确信息的依赖,从而降低自锚定漂移的影响。

技术框架:CCOPD框架包含一个教师模型和一个学生模型。教师模型是一个冻结的预训练语言模型,它接收完整的单轮提示作为输入。学生模型是同一个预训练语言模型的可训练副本,它通过多轮对话逐步接收相同的信息。训练过程中,学生模型生成响应,然后使用教师模型的输出作为目标,通过On-Policy蒸馏进行训练。

关键创新:CCOPD的关键创新在于使用On-Policy蒸馏来对齐学生模型和教师模型的行为。传统的离线蒸馏方法可能无法捕捉到多轮对话中的动态交互,而On-Policy蒸馏允许学生模型在自己的轨迹上进行学习,从而更好地适应多轮对话的环境。此外,使用同一个基础模型作为教师和学生,可以确保知识转移的有效性。

关键设计:CCOPD使用标准的语言模型损失函数进行训练。关键在于训练数据的构建,包括完整上下文的单轮提示和对应的多轮对话。在训练过程中,学生模型根据当前对话状态生成响应,然后计算其与教师模型输出之间的交叉熵损失。通过最小化这个损失,学生模型可以学习模仿教师模型的行为,从而减少自锚定漂移。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CCOPD在数学问题和五个零样本跨领域任务族中,RAW-SHARDED性能比原始基础模型平均相对提高了32%,同时在很大程度上保留了完整上下文性能。这表明CCOPD能够有效减少自锚定漂移,提高模型在多轮对话中的推理能力。此外,分析表明CCOPD加强了用户证据的基础,并降低了对早期助手轮次污染的敏感性。

🎯 应用场景

该研究成果可应用于各种需要多轮对话交互的场景,例如智能客服、对话式问答系统、任务型对话系统等。通过减少自锚定漂移,可以提高模型在复杂对话环境下的准确性和可靠性,从而提升用户体验。此外,该方法还可以用于提高模型在低资源场景下的性能,例如在数据稀缺的领域进行知识迁移。

📄 摘要(原文)

Large language models (LLMs) often solve a task when all instructions are given in a single prompt, but fail when the same information is revealed gradually across turns. When a clean FULL prompt and a RAW-SHARDED conversation contain the same complete user evidence, the model should still arrive at the same answer. We argue that a key reason for this gap is self-anchored drift: responses produced under partial information introduce unsupported assumptions, and those assumptions later distort the final answer. To reduce this effect, we propose Canonical-Context On-Policy Distillation (CCOPD). During training, the same base model is used in two roles: a frozen teacher conditioned on the clean FULL prompt and a trainable student that receives the same evidence incrementally through a multi-turn conversation; CCOPD aligns the student's behavior on its own trajectories with the teacher's canonical full-context behavior. Trained only on math problem conversations, CCOPD yields a 32\% average relative improvement in RAW-SHARDED performance over the original base model across math and five zero-shot out-of-domain task families, while largely preserving full-context performance. Further analyses suggest that CCOPD strengthens grounding in user evidence and reduces sensitivity to contamination from earlier assistant turns.