MemEvoBench: Benchmarking Memory MisEvolution in LLM Agents
作者: Weiwei Xie, Shaoxiong Guo, Fan Zhang, Tian Xia, Xue Yang, Lizhuang Ma, Junchi Yan, Qibing Ren
分类: cs.CL
发布日期: 2026-04-17
💡 一句话要点
MemEvoBench:评估LLM Agent中记忆错误演化的基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM Agent 记忆演化 安全性评估 基准测试 对抗性攻击
📋 核心要点
- 现有方法缺乏对LLM Agent中记忆错误演化的标准化评估框架,无法有效衡量长期记忆安全风险。
- MemEvoBench通过对抗性记忆注入、噪声工具输出和偏差反馈,模拟记忆演化过程,评估Agent的长期记忆安全性。
- 实验表明,偏差记忆更新会导致显著的安全降级,静态提示防御不足以应对记忆演化带来的安全风险。
📝 摘要(中文)
为大型语言模型(LLM)配备持久记忆可以增强交互的连续性和个性化,但也引入了新的安全风险。具体来说,受污染或有偏差的记忆积累会触发异常的Agent行为。现有的评估方法尚未建立用于测量记忆错误演化的标准化框架。这种现象指的是由于重复暴露于误导性信息而导致的逐渐行为漂移。为了解决这一差距,我们引入了MemEvoBench,这是第一个评估LLM Agent在对抗性记忆注入、嘈杂的工具输出和有偏差的反馈下的长时程记忆安全性的基准。该框架包含跨越7个领域和36种风险类型的QA式任务,以及改编自20个Agent-SafetyBench环境的工作流式任务,这些任务具有嘈杂的工具返回。两种设置都在多轮交互中使用混合的良性和误导性记忆池来模拟记忆演化。在代表性模型上的实验表明,在有偏差的记忆更新下,安全性会显著降低。我们的分析表明,记忆演化是导致这些失败的重要因素。此外,基于静态提示的防御被证明是不够的,这突显了保护LLM Agent中记忆演化的紧迫性。
🔬 方法详解
问题定义:论文旨在解决LLM Agent中由于长期记忆的错误演化而导致的安全问题。现有方法缺乏对这种现象的系统性评估,无法有效衡量Agent在长期交互中受到恶意信息影响后的行为变化。现有的Agent安全评估benchmark通常关注单轮或短时交互,忽略了记忆的累积效应和演化过程。
核心思路:论文的核心思路是构建一个基准测试,模拟Agent在长期交互中不断积累和更新记忆的过程,并评估其在面对对抗性信息时的安全性。通过设计包含良性和误导性信息的混合记忆池,以及模拟噪声工具输出和偏差反馈等真实场景,来评估Agent的鲁棒性和安全性。
技术框架:MemEvoBench包含两种类型的任务:QA式任务和工作流式任务。QA式任务涵盖7个领域和36种风险类型,通过多轮问答模拟记忆演化。工作流式任务改编自Agent-SafetyBench,模拟Agent使用工具完成任务的过程,并引入噪声工具输出。两种任务都使用混合的良性和误导性记忆池,并在多轮交互中更新Agent的记忆。评估指标包括Agent的回答准确性和安全性。
关键创新:MemEvoBench是第一个专门针对LLM Agent中记忆错误演化进行评估的基准测试。它通过模拟长期交互和引入对抗性信息,更真实地反映了Agent在实际应用中可能面临的安全风险。与现有的Agent安全评估方法相比,MemEvoBench更关注记忆的累积效应和演化过程,能够更全面地评估Agent的长期安全性。
关键设计:MemEvoBench的关键设计包括:1) 混合记忆池的设计,包含良性和误导性信息,模拟真实世界中Agent可能接触到的各种信息;2) 多轮交互的设计,模拟Agent在长期交互中不断积累和更新记忆的过程;3) 噪声工具输出和偏差反馈的设计,模拟Agent在实际应用中可能遇到的各种干扰;4) 针对不同风险类型设计的评估指标,能够更全面地评估Agent的安全性。
📊 实验亮点
在代表性模型上的实验表明,在有偏差的记忆更新下,Agent的安全性会显著降低。例如,在某些任务中,Agent的回答准确率下降了超过20%。实验还表明,基于静态提示的防御方法不足以有效应对记忆演化带来的安全风险,需要开发更有效的防御机制。
🎯 应用场景
MemEvoBench可用于评估和改进LLM Agent的长期记忆安全,降低Agent在实际应用中受到恶意信息影响的风险。该基准测试可以促进Agent安全领域的研究,推动开发更安全、更可靠的LLM Agent,应用于智能助手、自动化客服、智能决策等领域。
📄 摘要(原文)
Equipping Large Language Models (LLMs) with persistent memory enhances interaction continuity and personalization but introduces new safety risks. Specifically, contaminated or biased memory accumulation can trigger abnormal agent behaviors. Existing evaluation methods have not yet established a standardized framework for measuring memory misevolution. This phenomenon refers to the gradual behavioral drift resulting from repeated exposure to misleading information. To address this gap, we introduce MemEvoBench, the first benchmark evaluating long-horizon memory safety in LLM agents against adversarial memory injection, noisy tool outputs, and biased feedback. The framework consists of QA-style tasks across 7 domains and 36 risk types, complemented by workflow-style tasks adapted from 20 Agent-SafetyBench environments with noisy tool returns. Both settings employ mixed benign and misleading memory pools within multi-round interactions to simulate memory evolution. Experiments on representative models reveal substantial safety degradation under biased memory updates. Our analysis suggests that memory evolution is a significant contributor to these failures. Furthermore, static prompt-based defenses prove insufficient, underscoring the urgency of securing memory evolution in LLM agents.