MAIGO: Mitigating Lost-in-Conversation with History-Cleaned On-Policy Self-Distillation

作者: Haoyu Zheng, Yun Zhu, Shu Yuan, Shangming Chen, Qing Wang, Wenqiao Zhang, Jun Xiao, Yueting Zhuang

分类: cs.CL

发布日期: 2026-05-26

💡 一句话要点

提出MAIGO，通过历史清理的On-Policy自蒸馏缓解对话过程中的信息丢失问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 信息丢失 自蒸馏 历史清理 On-Policy学习

📋 核心要点

大型语言模型在多轮对话中易出现信息丢失问题，原因是中间回复会将早期偏差传递到后续对话中，形成自我污染。
MAIGO通过历史清理的On-Policy自蒸馏方法，移除中间回合的助手回复，并使用完整用户侧对话进行答案回合的蒸馏，减少自我污染。
实验表明，MAIGO在Qwen2.5-7B-Instruct模型上显著提升了SHARDED准确率和SHARDED/FULL比率，同时保持了FULL准确率。

📝 摘要（中文）

大型语言模型通常能够很好地解决由完整提示定义的任务，但当相同的需求在多个回合中展开时，性能会下降，这被称为对话过程中的信息丢失（Lost-in-Conversation, LiC）问题。本文将这种性能下降的部分原因归结为自我污染：中间助手回复进入后续上下文，并将早期的偏差传递下去。受此机制的启发，我们提出了一种名为MAIGO的On-Policy自蒸馏方法，该方法使用来自模型自身策略的历史清理参考来减少这种污染。对于中间回合，MAIGO移除先前的助手回复，同时保留用户可见的分片前缀；对于答案回合，它从配对的完整视图参考中进行蒸馏，这些参考以完整的用户侧对话为条件。可靠性权重会降低与干净参考不一致的中间回合样本的权重。MAIGO不需要验证器奖励、状态标签或推理时的脚手架。在具有确定性验证器的LiC配对视图协议下，MAIGO将Qwen2.5-7B-Instruct的SHARDED准确率从52.8%提高到66.1%，SHARDED/FULL比率从66.5%提高到84.1%，同时保持FULL准确率在2.3个点以内。这些结果表明，自我污染是LiC差距中一个可训练的组成部分。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在多轮对话中出现的“对话过程中的信息丢失（Lost-in-Conversation, LiC）”问题。现有方法在处理多轮对话时，由于模型自身的中间回复会引入偏差，导致后续对话受到污染，最终影响性能。这种“自我污染”是现有方法的一个痛点。

核心思路：论文的核心思路是通过“历史清理”来减少自我污染。具体来说，在训练过程中，对于中间回合，移除先前的助手回复，只保留用户可见的分片前缀，从而避免模型受到先前错误回复的影响。对于答案回合，则使用完整的用户侧对话作为条件，进行蒸馏学习。

技术框架：MAIGO的整体框架是一个On-Policy自蒸馏过程。它包含以下几个主要步骤：1) 数据收集：收集多轮对话数据；2) 历史清理：对于中间回合，移除助手回复；3) 参考生成：生成历史清理后的参考回复；4) 自蒸馏：使用原始对话和清理后的参考回复进行自蒸馏训练；5) 可靠性加权：对中间回合的样本进行加权，降低与清理后参考不一致的样本的权重。

关键创新：MAIGO的关键创新在于提出了“历史清理”的概念，并将其应用于On-Policy自蒸馏中。与现有方法相比，MAIGO不需要额外的验证器奖励、状态标签或推理时的脚手架，而是直接从模型自身的策略中学习，从而更有效地减少自我污染。

关键设计：MAIGO的关键设计包括：1) 历史清理策略：如何有效地移除助手回复，同时保留必要的上下文信息；2) 可靠性权重：如何衡量中间回合样本与清理后参考的差异，并据此调整权重；3) 损失函数：如何结合原始对话和清理后的参考回复，设计合适的自蒸馏损失函数。

🖼️ 关键图片

📊 实验亮点

MAIGO在Qwen2.5-7B-Instruct模型上进行了实验，结果表明，在LiC配对视图协议下，MAIGO将SHARDED准确率从52.8%提高到66.1%，提升了13.3个百分点；SHARDED/FULL比率从66.5%提高到84.1%，提升了17.6个百分点，同时保持FULL准确率在2.3个点以内。这些结果显著验证了MAIGO方法的有效性。

🎯 应用场景

MAIGO方法可应用于各种需要多轮对话交互的场景，例如智能客服、聊天机器人、智能助手等。通过减少对话过程中的信息丢失，可以提高对话的流畅性和准确性，改善用户体验，并提升语言模型在复杂任务中的表现。该研究对于提升人机交互的自然性和可靠性具有重要意义。

📄 摘要（原文）

Large language models often solve tasks from a fully specified prompt but degrade when the same requirements unfold over multiple turns, known as the lost-in-conversation (LiC) gap. We trace part of this degradation to self-contamination: intermediate assistant replies enter later context and carry early deviations forward. Motivated by this mechanism, we propose MAIGO, an on-policy self-distillation method that reduces this contamination using history-cleaned references from the model's own policy. For middle turns, MAIGO removes prior assistant replies while preserving the user-visible sharded prefix; for answer turns, it distills from paired full-view references conditioned on the completed user-side dialogue. A reliability weight downweights middle-turn samples that disagree with the clean reference. MAIGO requires no verifier rewards, state labels, or inference-time scaffolding. Under the LiC paired-view protocol with deterministic verifiers, MAIGO improves Qwen2.5-7B-Instruct SHARDED accuracy from 52.8 to 66.1 and the SHARDED/FULL ratio from 66.5% to 84.1%, while keeping FULL accuracy within 2.3 points. These results show that self-contamination is a trainable component of the LiC gap.

MAIGO: Mitigating Lost-in-Conversation with History-Cleaned On-Policy Self-Distillation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理