Text2Mem: A Unified Memory Operation Language for Memory Operating System

📄 arXiv: 2509.11145v2 📥 PDF

作者: Yi Wang, Lihai Yang, Boyu Chen, Gongyi Zou, Kerun Xu, Bo Tang, Feiyu Xiong, Siheng Chen, Zhiyu Li

分类: cs.CL, cs.PL

发布日期: 2025-09-14 (更新: 2025-10-23)

备注: 12 pages, 3 figures, 2 tables


💡 一句话要点

提出Text2Mem:一种统一的内存操作语言,用于提升Agent内存操作的可靠性和可移植性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 Agent 内存操作 统一语言 JSON模式 标准化 长时程交互 Text2Mem Bench

📋 核心要点

  1. 现有Agent内存框架缺乏高阶操作支持,且缺少正式规范,导致行为不可预测。
  2. Text2Mem定义了一种统一的内存操作语言,使用JSON模式规范指令,确保操作的标准化和可靠性。
  3. Text2Mem Bench基准测试将模式生成与后端执行分离,为系统评估提供支持。

📝 摘要(中文)

大型语言模型Agent越来越依赖于内存来维持长时程交互,但现有的框架仍然存在局限性。大多数框架只暴露了少数基本原语,如编码、检索和删除,而更高阶的操作,如合并、提升、降级、拆分、锁定和过期,要么缺失,要么支持不一致。此外,对于内存命令没有正式且可执行的规范,使得作用域和生命周期规则不明确,导致跨系统出现不可预测的行为。我们引入了Text2Mem,一种统一的内存操作语言,它提供了一种从自然语言到可靠执行的标准化路径。Text2Mem定义了一个紧凑但富有表现力的操作集,与编码、存储和检索对齐。每个指令都表示为一个基于JSON的模式实例,包含必需的字段和语义不变性,解析器将其转换为具有标准化参数的类型化操作对象。验证器在执行前确保正确性,而适配器将类型化对象映射到SQL原型后端或实际的内存框架。模型服务(如嵌入或摘要)在需要时集成。所有结果都通过统一的执行契约返回。这种设计确保了跨异构后端的安全性、确定性和可移植性。我们还概述了Text2Mem Bench,一个计划中的基准测试,它将模式生成与后端执行分离,以实现系统评估。总之,这些组件为Agent中的内存控制建立了第一个标准化基础。

🔬 方法详解

问题定义:现有的大型语言模型Agent在长时程交互中依赖内存,但现有框架仅提供有限的内存操作原语(如编码、检索、删除),缺乏高阶操作(如合并、拆分、锁定等),且缺乏统一规范,导致不同系统间的行为不一致和不可预测。这限制了Agent的复杂任务处理能力和可移植性。

核心思路:Text2Mem的核心思路是定义一种统一的、标准化的内存操作语言,该语言基于JSON模式,能够清晰地表达各种内存操作,并提供从自然语言到可靠执行的标准化路径。通过定义明确的语义和执行规则,确保Agent在不同内存后端上的行为一致性和可预测性。

技术框架:Text2Mem框架包含以下几个主要模块:1) Text2Mem语言定义:定义了一组紧凑且富有表现力的内存操作指令,每个指令都表示为一个基于JSON的模式实例,包含必需的字段和语义不变性。2) 解析器:将JSON模式实例解析为具有标准化参数的类型化操作对象。3) 验证器:在执行前验证类型化操作对象的正确性,确保操作符合预定义的语义规则。4) 适配器:将类型化操作对象映射到不同的内存后端,例如SQL数据库或特定的内存框架。5) 模型服务集成:在需要时集成模型服务,例如嵌入或摘要,以增强内存操作的功能。6) 统一执行契约:所有结果都通过统一的执行契约返回,确保结果的一致性和可预测性。

关键创新:Text2Mem的关键创新在于其统一的内存操作语言和标准化的执行流程。它通过JSON模式定义内存操作,并提供解析、验证和适配机制,实现了跨异构内存后端的安全、确定性和可移植性。这是现有Agent内存框架所缺乏的。

关键设计:Text2Mem的关键设计包括:1) JSON模式定义:使用JSON模式来定义内存操作指令,确保指令的结构化和可验证性。2) 类型化操作对象:将JSON模式实例解析为类型化操作对象,方便后续的验证和执行。3) 适配器模式:使用适配器模式将类型化操作对象映射到不同的内存后端,实现跨后端的兼容性。4) 统一执行契约:定义统一的执行契约,确保所有操作的结果都以一致的方式返回。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出了Text2Mem Bench,一个用于系统评估的基准测试,它将模式生成与后端执行分离,从而可以对Text2Mem的各个组件进行独立的评估。虽然具体的实验数据未在摘要中给出,但Text2Mem Bench的提出为后续的性能评估和优化奠定了基础。

🎯 应用场景

Text2Mem可应用于各种需要Agent进行长时程交互的场景,例如智能客服、对话式AI、自动化任务执行等。它能够提高Agent的记忆能力和推理能力,使其能够更好地理解用户意图并完成复杂任务。此外,Text2Mem的标准化设计也促进了Agent内存框架的模块化和可重用性。

📄 摘要(原文)

Large language model agents increasingly depend on memory to sustain long horizon interaction, but existing frameworks remain limited. Most expose only a few basic primitives such as encode, retrieve, and delete, while higher order operations like merge, promote, demote, split, lock, and expire are missing or inconsistently supported. Moreover, there is no formal and executable specification for memory commands, leaving scope and lifecycle rules implicit and causing unpredictable behavior across systems. We introduce Text2Mem, a unified memory operation language that provides a standardized pathway from natural language to reliable execution. Text2Mem defines a compact yet expressive operation set aligned with encoding, storage, and retrieval. Each instruction is represented as a JSON based schema instance with required fields and semantic invariants, which a parser transforms into typed operation objects with normalized parameters. A validator ensures correctness before execution, while adapters map typed objects either to a SQL prototype backend or to real memory frameworks. Model based services such as embeddings or summarization are integrated when required. All results are returned through a unified execution contract. This design ensures safety, determinism, and portability across heterogeneous backends. We also outline Text2Mem Bench, a planned benchmark that separates schema generation from backend execution to enable systematic evaluation. Together, these components establish the first standardized foundation for memory control in agents.