Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

作者: Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao, Bowen Jin, Weizhi Zhang, Xiao Li, Jiaxuan You, Chengwei Qin, Wenya Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-02-05

备注: Code is available at https://github.com/ViktorAxelsen/BudgetMem

💡 一句话要点

提出BudgetMem，通过查询感知的预算分层路由优化LLM Agent运行时记忆。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 运行时记忆 查询感知 预算分层 强化学习

📋 核心要点

现有LLM Agent记忆系统依赖离线、查询无关的记忆构建，效率低且可能丢弃关键信息。
BudgetMem通过运行时记忆模块和预算分层路由，实现查询感知的性能-成本显式控制。
实验表明，BudgetMem在不同预算下均优于基线，并分析了不同分层策略的优劣。

📝 摘要（中文）

本文提出BudgetMem，一个运行时Agent记忆框架，用于显式的、查询感知的性能-成本控制。BudgetMem将记忆处理构建为一组记忆模块，每个模块提供三个预算层级（低/中/高）。一个轻量级的路由器在模块间执行预算层级路由，以平衡任务性能和记忆构建成本，该路由器被实现为一个使用强化学习训练的紧凑型神经策略。本文使用BudgetMem作为统一的测试平台，研究了三种互补的预算分层策略：实现（方法复杂度）、推理（推理行为）和容量（模块模型大小）。在LoCoMo、LongMemEval和HotpotQA上，当优先考虑性能时（即高预算设置），BudgetMem超过了强大的基线，并在更严格的预算下提供了更好的准确性-成本边界。此外，本文的分析揭示了不同分层策略的优势和劣势，阐明了在不同的预算机制下，何时每个轴能够提供最有利的权衡。

🔬 方法详解

问题定义：现有的大语言模型Agent的记忆构建方法通常是离线的、与查询无关的，这导致了效率低下，并且可能在构建记忆的过程中丢弃对于当前查询至关重要的信息。虽然运行时记忆利用是一种自然的替代方案，但先前的工作通常会产生大量的开销，并且对性能-成本的权衡提供有限的显式控制。

核心思路：BudgetMem的核心思路是构建一个运行时Agent记忆框架，该框架能够根据查询内容动态地调整记忆模块的处理方式，从而在性能和成本之间取得平衡。通过将记忆处理分解为多个模块，并为每个模块提供不同的预算层级（低、中、高），BudgetMem可以根据当前查询的需求，选择合适的预算层级进行处理，从而优化整体的性能-成本权衡。

技术框架：BudgetMem的整体架构包含以下几个主要模块：1) 记忆模块：负责存储和处理记忆信息，每个模块提供三个预算层级。2) 路由器：一个轻量级的神经策略，负责根据当前查询的内容，决定每个记忆模块应该使用哪个预算层级。3) 强化学习训练模块：用于训练路由器，使其能够根据任务性能和记忆构建成本，选择最优的预算层级组合。整体流程是：接收到查询后，路由器根据查询内容和当前预算，为每个记忆模块选择一个预算层级。然后，记忆模块根据选择的预算层级处理记忆信息，并将结果返回给Agent。

关键创新：BudgetMem的关键创新在于其查询感知的预算分层路由机制。与传统的离线记忆构建方法不同，BudgetMem能够根据当前查询的内容，动态地调整记忆模块的处理方式，从而更好地平衡性能和成本。此外，BudgetMem还提供了一种显式的性能-成本控制机制，允许用户根据自己的需求，调整预算分配策略。

关键设计：BudgetMem的关键设计包括：1) 三种预算分层策略：实现（方法复杂度）、推理（推理行为）和容量（模块模型大小）。2) 使用强化学习训练路由器，目标是最大化任务性能，同时最小化记忆构建成本。3) 路由器采用紧凑型神经策略，以减少额外的计算开销。具体的强化学习设置（例如奖励函数、状态空间、动作空间）以及网络结构等细节未在摘要中明确提及，属于未知信息。

📊 实验亮点

实验结果表明，在LoCoMo、LongMemEval和HotpotQA等数据集上，BudgetMem在优先考虑性能的高预算设置下，超越了强大的基线模型。在更严格的预算限制下，BudgetMem也实现了更好的准确率-成本权衡。这些结果验证了BudgetMem的有效性，并表明其在不同预算条件下均能提供良好的性能。

🎯 应用场景

BudgetMem可应用于需要长期记忆和复杂推理的LLM Agent任务，例如智能客服、对话系统、游戏AI等。通过动态调整记忆处理的预算，可以在资源受限的环境下实现更好的性能，或在性能要求高的场景下充分利用计算资源。该研究为Agent记忆管理提供了一种新的思路，有助于提升Agent的智能化水平和应用范围。

📄 摘要（原文）

Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present \textbf{BudgetMem}, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., \textsc{Low}/\textsc{Mid}/\textsc{High}). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.

Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理