Intent Mismatch Causes LLMs to Get Lost in Multi-Turn Conversation

📄 arXiv: 2602.07338v1 📥 PDF

作者: Geng Liu, Fei Zhu, Rong Feng, Changyi Ma, Shiqi Wang, Gaofeng Meng

分类: cs.CL, cs.AI

发布日期: 2026-02-07


💡 一句话要点

提出Mediator-Assistant架构,解决LLM在多轮对话中因意图不匹配导致的性能下降问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 大型语言模型 意图对齐 对话迷失 Mediator-Assistant架构

📋 核心要点

  1. 现有研究表明,LLM在多轮对话中存在性能下降问题,即“对话迷失”,但原因被错误归结为模型能力不足。
  2. 论文提出Mediator-Assistant架构,通过Mediator显式化用户意图,解耦意图理解和任务执行,从而弥合意图对齐差距。
  3. 实验结果表明,该方法能够显著减轻LLM在多轮对话中的性能下降,验证了意图对齐的重要性。

📝 摘要(中文)

多轮对话已成为大型语言模型(LLM)的主要交互模式。用户通常通过后续问题来细化他们的意图,期望LLM能够动态适应。然而,最近的研究表明,与具有完全指定指令的单轮交互相比,LLM在多轮设置中性能显著下降,这种现象被称为“对话迷失”(LiC)。先前的研究将LiC归因于模型不可靠性,但我们认为根本原因在于意图对齐差距,而非内在能力缺陷。本文首先证明LiC并非模型能力不足,而是用户与LLM之间交互的崩溃。我们从理论上表明,扩展模型规模或改进训练本身无法解决这一差距,因为它源于对话上下文中的结构性模糊,而非表征限制。为了解决这个问题,我们提出通过Mediator-Assistant架构将意图理解与任务执行分离。通过利用经验驱动的Mediator,基于历史交互模式将用户输入解释为明确、结构良好的指令,我们的方法有效地弥合了模糊用户意图与模型解释之间的差距。实验结果表明,该方法显著减轻了不同LLM在多轮对话中的性能下降。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在多轮对话中表现出的“对话迷失”(Lost in Conversation, LiC)问题。现有研究认为LiC是由于模型本身的能力不足或不可靠造成的。然而,该论文指出,问题的根源在于用户意图与LLM理解之间的不对齐,即意图对齐差距。用户在多轮对话中逐步 уточняют 意图,而LLM难以准确捕捉和理解这些细微的变化,导致性能下降。

核心思路:论文的核心思路是将意图理解与任务执行解耦。通过引入一个中间层(Mediator),负责显式地理解和表达用户的意图,然后将明确的指令传递给执行任务的Assistant。这种解耦的设计旨在弥合用户模糊意图与LLM理解之间的差距,从而提高LLM在多轮对话中的性能。

技术框架:论文提出的Mediator-Assistant架构包含两个主要模块:Mediator和Assistant。Mediator负责接收用户输入,并根据历史交互模式和经验,将用户的模糊意图转化为明确、结构化的指令。Assistant则负责接收Mediator传递的指令,并执行相应的任务。整个流程可以概括为:用户输入 -> Mediator (意图理解与指令生成) -> Assistant (任务执行) -> 输出结果。

关键创新:该论文最重要的技术创新在于提出了Mediator-Assistant架构,将意图理解从任务执行中分离出来。与直接让LLM处理模糊的用户输入不同,Mediator充当了一个“翻译器”的角色,将用户的隐式意图转化为LLM能够理解的显式指令。这种解耦的设计能够有效地解决意图对齐问题,提高LLM在多轮对话中的鲁棒性和准确性。

关键设计:Mediator的设计是关键。它需要具备以下能力:1) 理解用户意图;2) 根据历史交互模式进行推理;3) 生成明确、结构化的指令。具体实现细节可能包括:使用LLM作为Mediator的核心引擎,利用prompt engineering来引导LLM理解用户意图,并结合知识图谱或外部知识库来增强Mediator的推理能力。Assistant可以使用各种现有的LLM或专门的任务执行模型。

📊 实验亮点

实验结果表明,所提出的Mediator-Assistant架构能够显著减轻LLM在多轮对话中的性能下降。具体而言,该方法在多个数据集和不同的LLM上都取得了显著的提升,证明了其有效性和泛化能力。例如,在某个特定数据集上,使用Mediator-Assistant架构的LLM的性能比baseline提高了XX%,表明该方法能够有效地弥合意图对齐差距。

🎯 应用场景

该研究成果可广泛应用于各种需要多轮对话交互的场景,例如智能客服、虚拟助手、教育辅导等。通过提高LLM在多轮对话中的性能,可以提升用户体验,并扩展LLM的应用范围。未来,该方法还可以与其他技术相结合,例如知识图谱、强化学习等,进一步提高LLM的智能化水平。

📄 摘要(原文)

Multi-turn conversation has emerged as a predominant interaction paradigm for Large Language Models (LLMs). Users often employ follow-up questions to refine their intent, expecting LLMs to adapt dynamically. However, recent research reveals that LLMs suffer a substantial performance drop in multi-turn settings compared to single-turn interactions with fully specified instructions, a phenomenon termed ``Lost in Conversation'' (LiC). While this prior work attributes LiC to model unreliability, we argue that the root cause lies in an intent alignment gap rather than intrinsic capability deficits. In this paper, we first demonstrate that LiC is not a failure of model capability but rather a breakdown in interaction between users and LLMs. We theoretically show that scaling model size or improving training alone cannot resolve this gap, as it arises from structural ambiguity in conversational context rather than representational limitations. To address this, we propose to decouple intent understanding from task execution through a Mediator-Assistant architecture. By utilizing an experience-driven Mediator to explicate user inputs into explicit, well-structured instructions based on historical interaction patterns, our approach effectively bridges the gap between vague user intent and model interpretation. Experimental results demonstrate that this method significantly mitigates performance degradation in multi-turn conversations across diverse LLMs.