Do LLMs Benefit From Their Own Words?
作者: Jenny Y. Huang, Leshem Choshen, Ramon Astudillo, Tamara Broderick, Jacob Andreas
分类: cs.CL, cs.AI
发布日期: 2026-02-27
💡 一句话要点
研究表明,大型语言模型在多轮对话中可能并不总是受益于自身历史回复,并提出选择性上下文过滤方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多轮对话 上下文学习 上下文过滤 提示工程
📋 核心要点
- 现有大型语言模型在多轮对话中默认保留所有历史信息,但可能引入冗余信息甚至“上下文污染”。
- 论文提出仅使用用户轮次提示的方法,并设计选择性上下文过滤策略,以减少冗余信息。
- 实验表明,省略助手历史在很多情况下不影响回复质量,甚至可以提高回复质量并降低内存消耗。
📝 摘要(中文)
本文重新审视了大型语言模型在多轮交互中保留助手自身历史回复的设计选择,探讨模型是否能从中获益。通过对实际多轮对话的分析,对比了标准(全上下文)提示与仅使用用户轮次提示的方法,应用于三个开放推理模型和一个先进模型。研究发现,在很大一部分对话轮次中,移除先前的助手回复并不影响回复质量,并且可以减少高达10倍的累积上下文长度。分析表明,多轮对话中存在大量(36.4%)的自包含提示,且许多后续提示仅需当前用户轮次和之前的用户轮次即可解答。在用户轮次提示优于全上下文提示的情况下,研究识别出上下文污染的实例,即模型过度依赖先前的回复,导致错误、幻觉或风格伪影在对话中传播。基于此,设计了一种选择性省略助手上下文的上下文过滤方法。研究结果表明,选择性省略助手历史可以提高回复质量,同时降低内存消耗。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在多轮对话中,是否需要保留所有历史回复的问题。现有方法默认保留所有历史信息,但可能导致上下文冗余,增加计算成本,甚至引入“上下文污染”,降低回复质量。
核心思路:核心思路是并非所有历史回复都对当前轮次的生成有益。通过分析发现,许多对话轮次是自包含的,或者仅依赖于用户历史。因此,可以省略部分或全部助手历史,以减少上下文长度并提高效率。
技术框架:论文采用对比实验的方法,比较了两种提示策略:(1) 全上下文提示,即保留所有历史对话;(2) 用户轮次提示,即仅保留用户历史。此外,还设计了一种上下文过滤方法,选择性地省略助手历史。该方法需要确定哪些助手历史可以安全地省略,但论文中并未详细说明具体的过滤策略。
关键创新:关键创新在于对大型语言模型在多轮对话中对自身历史回复的依赖性提出了质疑,并提出了选择性上下文过滤的概念。这与传统的全上下文提示方法不同,后者假设所有历史信息都有助于生成高质量的回复。
关键设计:论文的关键设计在于对比了全上下文提示和用户轮次提示两种策略,并分析了它们在不同情况下的表现。通过分析发现,用户轮次提示在很多情况下可以达到与全上下文提示相当甚至更好的效果。具体的参数设置、损失函数、网络结构等技术细节未在论文中详细描述,因为论文主要关注的是提示策略的影响。
🖼️ 关键图片
📊 实验亮点
研究发现,在36.4%的多轮对话中,当前轮次是自包含的,这意味着可以完全省略助手历史。此外,在某些情况下,用户轮次提示甚至优于全上下文提示,表明模型可能受到自身历史回复的干扰。通过选择性省略助手历史,可以在不降低回复质量的前提下,将上下文长度减少高达10倍。
🎯 应用场景
该研究成果可应用于各种需要多轮对话的场景,例如智能客服、聊天机器人、虚拟助手等。通过选择性地省略助手历史,可以降低计算成本,提高响应速度,并减少“上下文污染”的风险,从而提升用户体验。未来的研究可以探索更智能的上下文过滤策略,以进一步提高对话质量和效率。
📄 摘要(原文)
Multi-turn interactions with large language models typically retain the assistant's own past responses in the conversation history. In this work, we revisit this design choice by asking whether large language models benefit from conditioning on their own prior responses. Using in-the-wild, multi-turn conversations, we compare standard (full-context) prompting with a user-turn-only prompting approach that omits all previous assistant responses, across three open reasoning models and one state-of-the-art model. To our surprise, we find that removing prior assistant responses does not affect response quality on a large fraction of turns. Omitting assistant-side history can reduce cumulative context lengths by up to 10x. To explain this result, we find that multi-turn conversations consist of a substantial proportion (36.4%) of self-contained prompts, and that many follow-up prompts provide sufficient instruction to be answered using only the current user turn and prior user turns. When analyzing cases where user-turn-only prompting substantially outperforms full context, we identify instances of context pollution, in which models over-condition on their previous responses, introducing errors, hallucinations, or stylistic artifacts that propagate across turns. Motivated by these findings, we design a context-filtering approach that selectively omits assistant-side context. Our findings suggest that selectively omitting assistant history can improve response quality while reducing memory consumption.