STALE: Can LLM Agents Know When Their Memories Are No Longer Valid?
作者: Hanxiang Chao, Yihan Bai, Rui Sheng, Tianle Li, Yushi Sun
分类: cs.CL
发布日期: 2026-05-07
💡 一句话要点
提出STALE基准与CUPMem框架,解决LLM智能体在动态环境下的记忆失效与状态更新难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 智能体记忆 知识更新 上下文推理 逻辑一致性 基准测试
📋 核心要点
- 现有LLM记忆评估多局限于静态事实检索,忽视了在动态环境中识别并修正因新信息而失效的旧记忆这一核心挑战。
- 论文提出了STALE基准与三维探测框架,从状态解析、前提阻抗和策略适应三个维度量化评估智能体的记忆更新能力。
- 实验表明前沿模型在处理隐式冲突时表现欠佳,而提出的CUPMem通过结构化状态整合显著提升了记忆的鲁棒性与一致性。
📝 摘要(中文)
大语言模型(LLM)智能体被寄予厚望以维持连贯的长期个性化记忆,但现有基准主要关注静态事实检索,忽视了在出现新证据时修正既有信念的能力。本文识别出一种关键且未被充分探索的失效模式——“隐式冲突”(Implicit Conflict),即后续观察在没有明确否定的情况下使早期记忆失效,这要求模型具备上下文推理和常识判断能力。为严格评估此能力,我们引入了STALE基准,包含400个专家验证的冲突场景(涵盖100多个日常主题,上下文长达150K token)。我们提出了三维探测框架,测试状态解析、前提阻抗和隐式策略适应能力。对前沿LLM及专用记忆框架的系统评估显示,模型在检索更新证据与据此行动之间存在显著鸿沟,最优模型准确率仅为55.2%。为建立基准,我们提出了CUPMem原型,通过结构化状态整合与传播感知搜索强化写入时的修正能力,证明了显式状态裁决是构建鲁棒智能体记忆的有效路径。
🔬 方法详解
问题定义:论文旨在解决LLM智能体在长期交互中面临的“隐式冲突”问题。现有记忆系统往往将新旧信息简单堆叠,缺乏对新观察如何使旧记忆失效的逻辑判断,导致智能体在决策时仍基于过时信息,产生逻辑不一致。
核心思路:核心在于从“被动检索”转向“主动状态管理”。论文认为,记忆不应只是简单的向量存储,而应包含对状态有效性的显式裁决。通过引入结构化的状态整合机制,确保写入记忆时即进行冲突检测与更新。
技术框架:整体框架包含STALE评估基准与CUPMem原型系统。CUPMem主要由三个模块组成:状态提取器(State Extractor)负责从交互中识别关键状态;结构化整合器(Structured Consolidator)负责将新状态与旧记忆进行逻辑对齐;传播感知搜索(Propagation-aware Search)则确保在检索时能识别并剔除受影响的过时记忆片段。
关键创新:最重要的创新在于提出了“隐式冲突”这一概念,并设计了三维探测框架(状态解析、前提阻抗、隐式策略适应),将记忆评估从单纯的准确率提升至逻辑一致性与行为适应性层面。
关键设计:CUPMem采用了基于结构化状态的写入策略,而非传统的语义向量追加。通过显式的状态裁决逻辑,当新信息与旧记忆存在逻辑冲突时,系统会触发更新机制,强制修正或废弃旧状态,从而在源头上保证记忆的实时性与准确性。
🖼️ 关键图片
📊 实验亮点
实验评估了多个前沿LLM及记忆框架,结果显示即使是顶尖模型在STALE基准上的整体准确率也仅为55.2%,揭示了当前模型在处理隐式冲突时的严重局限。CUPMem原型通过引入结构化状态管理,在多项指标上显著优于基线方法,证明了显式状态裁决机制在提升智能体记忆鲁棒性方面的有效性。
🎯 应用场景
该研究广泛适用于需要长期记忆的智能体应用,如个人数字助理、长程任务规划机器人及复杂对话系统。通过提升智能体对环境变化的敏感度与记忆修正能力,可显著增强其在动态现实世界中的可靠性,减少因记忆过时导致的决策错误。
📄 摘要(原文)
Large Language Model (LLM) agents are increasingly expected to maintain coherent, long-term personalized memory, yet current benchmarks primarily measure static fact retrieval, overlooking the ability to revise stored beliefs when new evidence emerges. We identify a critical and underexplored failure mode, Implicit Conflict: a later observation invalidates an earlier memory without explicit negation, requiring contextual inference and commonsense reasoning to detect. To rigorously evaluate this capability, we introduce STALE, a benchmark of 400 expert-validated conflict scenarios (1,200 evaluation queries across three probing dimensions) spanning over 100 everyday topics with contexts up to 150K tokens. We propose a three-dimensional probing framework that tests State Resolution (detecting that a prior belief is outdated), Premise Resistance (rejecting queries that falsely presuppose a stale state), and Implicit Policy Adaptation (proactively applying updated states in downstream behavior). A systematic evaluation of frontier LLMs and specialized memory frameworks reveals a pervasive gap between retrieving updated evidence and acting on it, with even the best evaluated model achieving only 55.2% overall accuracy. Models often accept outdated assumptions embedded in a user's query, and they struggle to recognize when a change in one aspect of the user's state should invalidate related memories. To establish an initial baseline for state-aware memory, we further present CUPMem, a prototype that strengthens write-time revision through structured state consolidation and propagation-aware search, suggesting that explicit state adjudication is a promising direction for robust agentic memory.