Task Memory Engine (TME): Enhancing State Awareness for Multi-Step LLM Agent Tasks

作者: Ye Ye

分类: cs.AI, cs.CL

发布日期: 2025-04-11 (更新: 2025-08-22)

备注: 14 pages, 5 figures. Preprint prepared for future submission. Includes implementation and token-efficiency analysis. Code at https://github.com/biubiutomato/TME-Agent

🔗 代码/项目: GITHUB

💡 一句话要点

提出任务记忆引擎TME，增强LLM Agent多步任务中的状态感知能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 多步任务 任务记忆 状态感知 提示工程 知识图谱 上下文学习

📋 核心要点

现有LLM Agent在多步任务中缺乏结构化的任务状态理解，导致性能不稳定、幻觉和长期连贯性差。
提出任务记忆引擎TME，通过分层任务记忆树TMT跟踪任务执行，存储任务步骤的输入、输出和状态。
实验表明，TME能显著提高多步Agent任务的完成准确性和可解释性，且实现开销小。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地被用作多步任务的自主Agent。然而，现有的大多数框架未能保持对任务状态的结构化理解，通常依赖于线性提示连接或浅层记忆缓冲区。这导致性能脆弱、频繁出现幻觉以及较差的长期连贯性。本文提出了任务记忆引擎（TME），这是一个轻量级且结构化的记忆模块，它使用分层任务记忆树（TMT）跟踪任务执行。树中的每个节点对应于一个任务步骤，存储相关的输入、输出、状态和子任务关系。我们引入了一种提示合成方法，该方法基于活动节点路径动态生成LLM提示，从而显著提高执行一致性和上下文基础。通过多步Agent任务的案例研究和对比实验，我们证明了TME以最小的实现开销实现了更好的任务完成准确性和更可解释的行为。核心TME组件的参考实现可在https://github.com/biubiutomato/TME-Agent获得，包括基本示例和结构化内存集成。虽然当前的实现使用基于树的结构，但TME被设计为具有图感知能力，支持可重用的子步骤、收敛的任务路径和共享依赖项。这为未来的基于DAG的记忆架构奠定了基础。

🔬 方法详解

问题定义：现有LLM Agent在执行多步任务时，通常采用线性拼接prompt或浅层记忆缓冲，缺乏对任务状态的结构化理解。这导致Agent在复杂任务中容易出现幻觉，难以保持长期连贯性，最终影响任务完成的准确率。现有方法难以有效追踪任务的执行过程和状态变化，无法充分利用上下文信息指导后续步骤的执行。

核心思路：TME的核心思路是构建一个结构化的任务记忆，以树状结构（TMT）来组织任务的执行过程。每个节点代表一个任务步骤，记录该步骤的输入、输出、状态以及与其他子任务的关系。通过维护这个任务记忆树，TME能够清晰地追踪任务的执行路径，并基于当前节点路径动态生成LLM的prompt，从而增强LLM对任务状态的感知能力。

技术框架：TME主要包含两个核心组件：任务记忆树（TMT）和提示合成模块。TMT是一个分层树状结构，用于存储任务的执行过程信息。提示合成模块则根据当前TMT中的活动节点路径，动态生成LLM的prompt。具体流程如下：1. Agent执行一个任务步骤；2. TME将该步骤的输入、输出和状态信息存储到TMT的相应节点中；3. 当Agent需要执行下一个步骤时，提示合成模块会根据当前TMT的活动节点路径，提取相关的上下文信息；4. 将提取的上下文信息与当前步骤的指令组合成prompt，输入给LLM；5. LLM根据prompt生成下一步的动作或输出。

关键创新：TME最关键的创新在于其结构化的任务记忆表示和动态提示合成方法。与传统的线性prompt拼接或浅层记忆缓冲相比，TME能够更有效地组织和利用任务的上下文信息，从而提高LLM Agent的执行一致性和上下文基础。此外，TME的树状结构也为未来的图结构扩展奠定了基础，可以支持更复杂的任务依赖关系和子任务复用。

关键设计：TMT的节点设计是关键。每个节点需要包含足够的信息来描述任务步骤的状态，包括输入、输出、状态、子任务关系等。提示合成模块的设计也至关重要，需要能够根据TMT的活动节点路径，有效地提取相关的上下文信息，并将其与当前步骤的指令组合成prompt。此外，TME的设计考虑了可扩展性，未来的图结构扩展可以支持更复杂的任务依赖关系和子任务复用。目前实现采用树结构，但设计上支持DAG（有向无环图）结构，为后续扩展提供了基础。

🖼️ 关键图片

📊 实验亮点

论文通过案例研究和对比实验，验证了TME的有效性。实验结果表明，TME能够显著提高多步Agent任务的完成准确性，并降低幻觉的发生。与基线方法相比，TME在任务完成准确率方面取得了显著提升，同时保持了较低的实现开销。论文还提供了TME核心组件的参考实现，方便其他研究者和开发者使用。

🎯 应用场景

TME具有广泛的应用前景，可应用于各种需要多步推理和规划的LLM Agent任务，例如智能客服、自动化流程、游戏AI等。通过增强LLM Agent的状态感知能力，TME可以提高任务完成的准确性和效率，降低幻觉的发生，并提升Agent的长期连贯性。未来，TME有望成为构建更可靠、更智能的LLM Agent的重要组成部分。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly used as autonomous agents for multi-step tasks. However, most existing frameworks fail to maintain a structured understanding of the task state, often relying on linear prompt concatenation or shallow memory buffers. This leads to brittle performance, frequent hallucinations, and poor long-range coherence. In this work, we propose the Task Memory Engine (TME), a lightweight and structured memory module that tracks task execution using a hierarchical Task Memory Tree (TMT). Each node in the tree corresponds to a task step, storing relevant input, output, status, and sub-task relationships. We introduce a prompt synthesis method that dynamically generates LLM prompts based on the active node path, significantly improving execution consistency and contextual grounding. Through case studies and comparative experiments on multi-step agent tasks, we demonstrate that TME leads to better task completion accuracy and more interpretable behavior with minimal implementation overhead. A reference implementation of the core TME components is available at https://github.com/biubiutomato/TME-Agent, including basic examples and structured memory integration. While the current implementation uses a tree-based structure, TME is designed to be graph-aware, supporting reusable substeps, converging task paths, and shared dependencies. This lays the groundwork for future DAG-based memory architectures.

Task Memory Engine (TME): Enhancing State Awareness for Multi-Step LLM Agent Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理