MAIGO: Mitigating Lost-in-Conversation with History-Cleaned On-Policy Self-Distillation

📄 arXiv: 2605.27186v1 📥 PDF

作者: Haoyu Zheng, Yun Zhu, Shu Yuan, Shangming Chen, Qing Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang

分类: cs.CL

发布日期: 2026-05-26


💡 一句话要点

提出MAIGO,通过历史清理的On-Policy自蒸馏缓解对话过程中的信息丢失问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 信息丢失 自蒸馏 历史清理 On-Policy学习

📋 核心要点

  1. 大型语言模型在多轮对话中易出现信息丢失问题,原因是中间回复会将早期偏差传递到后续对话中,形成自我污染。
  2. MAIGO通过历史清理的On-Policy自蒸馏方法,移除中间回合的助手回复,并使用完整用户侧对话进行答案回合的蒸馏,减少自我污染。
  3. 实验表明,MAIGO在Qwen2.5-7B-Instruct模型上显著提升了SHARDED准确率和SHARDED/FULL比率,同时保持了FULL准确率。

📝 摘要(中文)

大型语言模型通常能够很好地解决由完整提示定义的任务,但当相同的需求在多个回合中展开时,性能会下降,这被称为对话过程中的信息丢失(Lost-in-Conversation, LiC)问题。本文将这种性能下降的部分原因归结为自我污染:中间助手回复进入后续上下文,并将早期的偏差传递下去。受此机制的启发,我们提出了一种名为MAIGO的On-Policy自蒸馏方法,该方法使用来自模型自身策略的历史清理参考来减少这种污染。对于中间回合,MAIGO移除先前的助手回复,同时保留用户可见的分片前缀;对于答案回合,它从配对的完整视图参考中进行蒸馏,这些参考以完整的用户侧对话为条件。可靠性权重会降低与干净参考不一致的中间回合样本的权重。MAIGO不需要验证器奖励、状态标签或推理时的脚手架。在具有确定性验证器的LiC配对视图协议下,MAIGO将Qwen2.5-7B-Instruct的SHARDED准确率从52.8%提高到66.1%,SHARDED/FULL比率从66.5%提高到84.1%,同时保持FULL准确率在2.3个点以内。这些结果表明,自我污染是LiC差距中一个可训练的组成部分。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在多轮对话中出现的“对话过程中的信息丢失(Lost-in-Conversation, LiC)”问题。现有方法在处理多轮对话时,由于模型自身的中间回复会引入偏差,导致后续对话受到污染,最终影响性能。这种“自我污染”是现有方法的一个痛点。

核心思路:论文的核心思路是通过“历史清理”来减少自我污染。具体来说,在训练过程中,对于中间回合,移除先前的助手回复,只保留用户可见的分片前缀,从而避免模型受到先前错误回复的影响。对于答案回合,则使用完整的用户侧对话作为条件,进行蒸馏学习。

技术框架:MAIGO的整体框架是一个On-Policy自蒸馏过程。它包含以下几个主要步骤:1) 数据收集:收集多轮对话数据;2) 历史清理:对于中间回合,移除助手回复;3) 参考生成:生成历史清理后的参考回复;4) 自蒸馏:使用原始对话和清理后的参考回复进行自蒸馏训练;5) 可靠性加权:对中间回合的样本进行加权,降低与清理后参考不一致的样本的权重。

关键创新:MAIGO的关键创新在于提出了“历史清理”的概念,并将其应用于On-Policy自蒸馏中。与现有方法相比,MAIGO不需要额外的验证器奖励、状态标签或推理时的脚手架,而是直接从模型自身的策略中学习,从而更有效地减少自我污染。

关键设计:MAIGO的关键设计包括:1) 历史清理策略:如何有效地移除助手回复,同时保留必要的上下文信息;2) 可靠性权重:如何衡量中间回合样本与清理后参考的差异,并据此调整权重;3) 损失函数:如何结合原始对话和清理后的参考回复,设计合适的自蒸馏损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MAIGO在Qwen2.5-7B-Instruct模型上进行了实验,结果表明,在LiC配对视图协议下,MAIGO将SHARDED准确率从52.8%提高到66.1%,提升了13.3个百分点;SHARDED/FULL比率从66.5%提高到84.1%,提升了17.6个百分点,同时保持FULL准确率在2.3个点以内。这些结果显著验证了MAIGO方法的有效性。

🎯 应用场景

MAIGO方法可应用于各种需要多轮对话交互的场景,例如智能客服、聊天机器人、智能助手等。通过减少对话过程中的信息丢失,可以提高对话的流畅性和准确性,改善用户体验,并提升语言模型在复杂任务中的表现。该研究对于提升人机交互的自然性和可靠性具有重要意义。

📄 摘要(原文)

Large language models often solve tasks from a fully specified prompt but degrade when the same requirements unfold over multiple turns, known as the lost-in-conversation (LiC) gap. We trace part of this degradation to self-contamination: intermediate assistant replies enter later context and carry early deviations forward. Motivated by this mechanism, we propose MAIGO, an on-policy self-distillation method that reduces this contamination using history-cleaned references from the model's own policy. For middle turns, MAIGO removes prior assistant replies while preserving the user-visible sharded prefix; for answer turns, it distills from paired full-view references conditioned on the completed user-side dialogue. A reliability weight downweights middle-turn samples that disagree with the clean reference. MAIGO requires no verifier rewards, state labels, or inference-time scaffolding. Under the LiC paired-view protocol with deterministic verifiers, MAIGO improves Qwen2.5-7B-Instruct SHARDED accuracy from 52.8 to 66.1 and the SHARDED/FULL ratio from 66.5% to 84.1%, while keeping FULL accuracy within 2.3 points. These results show that self-contamination is a trainable component of the LiC gap.