MT-OSC: Path for LLMs that Get Lost in Multi-Turn Conversation

📄 arXiv: 2604.08782v1 📥 PDF

作者: Jyotika Singh, Fang Tu, Miguel Ballesteros, Weiyi Sun, Sandip Ghoshal, Michelle Yuan, Yassine Benajiba, Sujith Ravi, Dan Roth

分类: cs.CL

发布日期: 2026-04-09


💡 一句话要点

MT-OSC:解决LLM在多轮对话中迷失问题的路径,实现高效上下文压缩。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 上下文压缩 大型语言模型 聊天机器人 信息提取

📋 核心要点

  1. 现有LLM在多轮对话中面临上下文窗口限制,导致性能下降、成本增加和延迟增大。
  2. MT-OSC通过Condenser Agent在后台自动压缩聊天历史,选择性保留关键信息,降低token数量。
  3. 实验表明,MT-OSC在多个LLM和数据集上缩小了多轮性能差距,提高了准确性,并保持了鲁棒性。

📝 摘要(中文)

大型语言模型(LLM)在用户指令和上下文分布在多个对话轮次中时,性能会显著下降,而多轮(MT)交互在聊天界面中占据主导地位。将完整聊天记录附加到提示的常规方法会迅速耗尽上下文窗口,导致延迟增加、计算成本更高,并且随着对话的延长,收益递减。我们引入了MT-OSC,这是一种一次性的顺序压缩框架,可以在后台高效且自动地压缩聊天历史记录,而不会中断用户体验。MT-OSC采用一个Condenser Agent,它使用基于少量样本推理的Condenser和一个轻量级的Decider来选择性地保留必要的信息,在10轮对话中最多可减少72%的token数量。在13个最先进的LLM和各种多轮基准测试中进行评估,MT-OSC始终缩小了多轮性能差距——在数据集上产生改进或保持的准确性,同时对干扰因素和不相关的轮次保持鲁棒性。我们的结果表明,MT-OSC是一种可扩展的多轮聊天解决方案,可以在受限的输入空间内实现更丰富的上下文,减少延迟和运营成本,同时平衡性能。

🔬 方法详解

问题定义:现有大型语言模型在处理多轮对话时,由于上下文窗口的限制,需要将完整的对话历史作为输入,这导致了计算成本的增加、延迟的增大以及性能的下降。尤其是在长对话中,模型容易“迷失”,无法有效利用早期轮次的上下文信息。现有方法缺乏高效的上下文压缩机制,无法在保证性能的同时降低计算负担。

核心思路:MT-OSC的核心思路是在后台对聊天历史进行压缩,提取关键信息,从而减少输入token的数量,缓解上下文窗口的压力。它通过一个Condenser Agent来实现这一目标,该Agent能够自动判断哪些信息是重要的,哪些是可以丢弃的,从而在不影响用户体验的前提下,降低计算成本和延迟。

技术框架:MT-OSC包含一个Condenser Agent,该Agent由一个Condenser和一个Decider组成。Condenser负责根据少量样本推理,对聊天历史进行压缩,生成摘要。Decider则负责判断哪些轮次的对话需要保留,哪些可以丢弃。整个过程在后台进行,对用户透明,不会影响用户的交互体验。框架采用一次性顺序压缩,避免了频繁的压缩操作。

关键创新:MT-OSC的关键创新在于其自动化的上下文压缩机制。与手动或基于规则的压缩方法不同,MT-OSC能够根据对话的内容动态地选择需要保留的信息,从而更好地适应不同的对话场景。此外,MT-OSC的Condenser Agent采用少量样本推理,减少了对大量训练数据的依赖。

关键设计:Condenser Agent的设计是关键。Condenser使用少量样本学习如何生成高质量的摘要,Decider则使用轻量级的模型来判断哪些轮次的对话需要保留。具体参数设置和网络结构在论文中未详细说明,属于未知信息。损失函数的设计也未提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MT-OSC在13个最先进的LLM和各种多轮基准测试中进行了评估,结果表明,MT-OSC能够显著缩小多轮性能差距,在数据集上产生改进或保持的准确性,同时对干扰因素和不相关的轮次保持鲁棒性。在10轮对话中,MT-OSC最多可减少72%的token数量。

🎯 应用场景

MT-OSC可广泛应用于各种聊天机器人、智能助手和在线客服系统,尤其是在需要处理长对话和复杂上下文的场景中。通过降低计算成本和延迟,MT-OSC可以提高用户体验,并使LLM能够更好地理解和响应用户的需求。该研究对于推动LLM在实际应用中的普及具有重要意义。

📄 摘要(原文)

Large language models (LLMs) suffer significant performance degradation when user instructions and context are distributed over multiple conversational turns, yet multi-turn (MT) interactions dominate chat interfaces. The routine approach of appending full chat history to prompts rapidly exhausts context windows, leading to increased latency, higher computational costs, and diminishing returns as conversations extend. We introduce MT-OSC, a One-off Sequential Condensation framework that efficiently and automatically condenses chat history in the background without disrupting the user experience. MT-OSC employs a Condenser Agent that uses a few-shot inference-based Condenser and a lightweight Decider to selectively retain essential information, reducing token counts by up to 72% in 10-turn dialogues. Evaluated across 13 state-of-the-art LLMs and diverse multi-turn benchmarks, MT-OSC consistently narrows the multi-turn performance gap - yielding improved or preserved accuracy across datasets while remaining robust to distractors and irrelevant turns. Our results establish MT-OSC as a scalable solution for multi-turn chats, enabling richer context within constrained input spaces, reducing latency and operational cost, while balancing performance.