Improving Multi-turn Dialogue Consistency with Self-Recall Thinking

📄 arXiv: 2605.15102v1 📥 PDF

作者: Renning Pang, Tian Lan, Leyuan Liu, Xiaoming Huang, Piao Tong, Xiaosong Zhang

分类: cs.CL, cs.AI

发布日期: 2026-05-14


💡 一句话要点

提出自回忆思考(SRT)框架,提升多轮对话一致性并降低延迟。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多轮对话 上下文一致性 自回忆 长程依赖 大型语言模型

📋 核心要点

  1. 现有基于LLM的多轮对话系统难以追踪长程依赖,导致一致性问题和效率瓶颈。
  2. SRT框架通过选择性地回忆和推理历史对话,实现上下文相关的响应生成,无需外部模块。
  3. 实验表明,SRT在多个数据集上显著提升了F1分数并降低了端到端延迟,优于现有方法。

📝 摘要(中文)

基于大型语言模型(LLM)的多轮对话系统常常难以追踪非相邻轮次之间的依赖关系,从而损害一致性和可扩展性。随着对话的进行,关键信息变得稀疏并被埋没在无关的上下文中,而处理整个对话历史会导致严重的效率瓶颈。现有的解决方案要么依赖于高延迟的外部记忆,要么通过迭代总结丢失细粒度的细节。本文提出了自回忆思考(SRT)框架,旨在解决多轮对话中的长程上下文依赖和稀疏信息信号问题。SRT识别有用的历史轮次,并使用它们来生成上下文相关的响应,使模型能够在推理过程中有选择地回忆和推理上下文。这个过程产生了一个内生的推理过程,该过程集成了可解释的回忆步骤,而无需外部模块。SRT包含:(1)依赖关系构建:生成并将其转换为自回忆链;(2)能力初始化:训练以启用具有回忆token能力的推理链;(3)推理改进:通过可验证的奖励来提高准确性,以优化回忆和推理以获得正确的答案。在多个数据集上的实验表明,SRT将F1分数提高了4.7%,并将端到端延迟降低了14.7%,在推理延迟和准确性之间取得了平衡,并且优于最先进的基线。

🔬 方法详解

问题定义:多轮对话系统需要维护对话历史以保证上下文一致性。然而,随着对话轮数的增加,关键信息变得稀疏,且处理整个对话历史的计算成本很高。现有方法,如外部记忆或迭代总结,要么引入高延迟,要么丢失细粒度信息,无法有效解决长程依赖问题。

核心思路:SRT的核心思路是让模型具备“自回忆”的能力,即能够主动识别并回忆相关的历史对话轮次,从而在生成回复时能够更好地利用上下文信息。这种方法避免了对整个对话历史的无差别处理,提高了效率,同时保留了关键细节。

技术框架:SRT框架包含三个主要阶段:(1)依赖关系构建:通过分析对话历史,构建对话轮次之间的依赖关系,并将其转化为自回忆链;(2)能力初始化:训练模型,使其能够理解和利用自回忆链中的信息,即赋予模型“回忆token”的能力;(3)推理改进:通过强化学习等方法,优化模型的回忆和推理过程,使其能够更准确地回忆相关信息并生成正确的回复。

关键创新:SRT的关键创新在于其内生的回忆机制,无需依赖外部模块或迭代总结。模型通过自回忆链来选择性地利用上下文信息,实现了高效且细粒度的上下文建模。这种方法更接近人类的对话方式,具有更好的可解释性。

关键设计:在依赖关系构建阶段,可以使用各种方法来识别相关的历史对话轮次,例如基于语义相似度的检索或基于注意力机制的依赖关系学习。在能力初始化阶段,可以使用对比学习等方法来训练模型理解回忆token。在推理改进阶段,可以使用可验证的奖励函数来指导模型的回忆和推理过程,例如奖励模型生成正确回复的行为,惩罚模型回忆无关信息或生成错误回复的行为。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SRT在多个数据集上取得了显著的性能提升。例如,在某个数据集上,SRT将F1分数提高了4.7%,并将端到端延迟降低了14.7%。与现有方法相比,SRT在推理延迟和准确性之间取得了更好的平衡,并且优于最先进的基线模型。这些结果验证了SRT框架的有效性和优越性。

🎯 应用场景

SRT框架可应用于各种多轮对话场景,如智能客服、聊天机器人、任务型对话系统等。通过提高对话一致性和降低延迟,SRT能够提升用户体验,并降低对话系统的部署成本。未来,SRT还可以与其他技术结合,例如知识图谱、外部知识库等,以进一步增强对话系统的能力。

📄 摘要(原文)

Large language model (LLM) based multi-turn dialogue systems often struggle to track dependencies across non-adjacent turns, undermining both consistency and scalability. As conversations lengthen, essential information becomes sparse and is buried in irrelevant context, while processing the entire dialogue history incurs severe efficiency bottlenecks. Existing solutions either rely on high latency external memory or lose fine-grained details through iterative summarization. In this paper, we propose Self-Recall Thinking (SRT), a framework designed to address long-range contextual dependency and sparse informative signals in multi-turn dialogue. SRT identifies helpful historical turns and uses them to generate contextually appropriate responses, enabling the model to selectively recall and reason over context during inference. This process yields an endogenous reasoning process that integrates interpretable recall steps without external modules. SRT incorporates: (1) Dependency Construction: Generating and converting it into self-recall chains; (2)Capability Initialization: Training to enable reasoning chains with recall tokens capability; (3)Reasoning Improvement: Refining accuracy via verifiable rewards to optimize recall and reasoning for correct answers. Experiments on multiple datasets demonstrate that SRT improves F1 score by 4.7% and reduces end-to-end latency by 14.7% over prior methods, achieving a balance between reasoning latency and accuracy, and outperforming state-of-the-art baselines.