Learning Query-Aware Budget-Tier Routing for Runtime Agent Memory

📄 arXiv: 2602.06025v1 📥 PDF

作者: Haozhen Zhang, Haodong Yue, Tao Feng, Quanyu Long, Jianzhu Bao, Bowen Jin, Weizhi Zhang, Xiao Li, Jiaxuan You, Chengwei Qin, Wenya Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-02-05

备注: Code is available at https://github.com/ViktorAxelsen/BudgetMem


💡 一句话要点

提出BudgetMem,通过查询感知的预算分层路由优化LLM Agent运行时记忆。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 运行时记忆 查询感知 预算分层 强化学习

📋 核心要点

  1. 现有LLM Agent记忆系统依赖离线、查询无关的记忆构建,效率低且可能丢弃关键信息。
  2. BudgetMem通过运行时记忆模块和预算分层路由,实现查询感知的性能-成本显式控制。
  3. 实验表明,BudgetMem在不同预算下均优于基线,并分析了不同分层策略的优劣。

📝 摘要(中文)

本文提出BudgetMem,一个运行时Agent记忆框架,用于显式的、查询感知的性能-成本控制。BudgetMem将记忆处理构建为一组记忆模块,每个模块提供三个预算层级(低/中/高)。一个轻量级的路由器在模块间执行预算层级路由,以平衡任务性能和记忆构建成本,该路由器被实现为一个使用强化学习训练的紧凑型神经策略。本文使用BudgetMem作为统一的测试平台,研究了三种互补的预算分层策略:实现(方法复杂度)、推理(推理行为)和容量(模块模型大小)。在LoCoMo、LongMemEval和HotpotQA上,当优先考虑性能时(即高预算设置),BudgetMem超过了强大的基线,并在更严格的预算下提供了更好的准确性-成本边界。此外,本文的分析揭示了不同分层策略的优势和劣势,阐明了在不同的预算机制下,何时每个轴能够提供最有利的权衡。

🔬 方法详解

问题定义:现有的大语言模型Agent的记忆构建方法通常是离线的、与查询无关的,这导致了效率低下,并且可能在构建记忆的过程中丢弃对于当前查询至关重要的信息。虽然运行时记忆利用是一种自然的替代方案,但先前的工作通常会产生大量的开销,并且对性能-成本的权衡提供有限的显式控制。

核心思路:BudgetMem的核心思路是构建一个运行时Agent记忆框架,该框架能够根据查询内容动态地调整记忆模块的处理方式,从而在性能和成本之间取得平衡。通过将记忆处理分解为多个模块,并为每个模块提供不同的预算层级(低、中、高),BudgetMem可以根据当前查询的需求,选择合适的预算层级进行处理,从而优化整体的性能-成本权衡。

技术框架:BudgetMem的整体架构包含以下几个主要模块:1) 记忆模块:负责存储和处理记忆信息,每个模块提供三个预算层级。2) 路由器:一个轻量级的神经策略,负责根据当前查询的内容,决定每个记忆模块应该使用哪个预算层级。3) 强化学习训练模块:用于训练路由器,使其能够根据任务性能和记忆构建成本,选择最优的预算层级组合。整体流程是:接收到查询后,路由器根据查询内容和当前预算,为每个记忆模块选择一个预算层级。然后,记忆模块根据选择的预算层级处理记忆信息,并将结果返回给Agent。

关键创新:BudgetMem的关键创新在于其查询感知的预算分层路由机制。与传统的离线记忆构建方法不同,BudgetMem能够根据当前查询的内容,动态地调整记忆模块的处理方式,从而更好地平衡性能和成本。此外,BudgetMem还提供了一种显式的性能-成本控制机制,允许用户根据自己的需求,调整预算分配策略。

关键设计:BudgetMem的关键设计包括:1) 三种预算分层策略:实现(方法复杂度)、推理(推理行为)和容量(模块模型大小)。2) 使用强化学习训练路由器,目标是最大化任务性能,同时最小化记忆构建成本。3) 路由器采用紧凑型神经策略,以减少额外的计算开销。具体的强化学习设置(例如奖励函数、状态空间、动作空间)以及网络结构等细节未在摘要中明确提及,属于未知信息。

📊 实验亮点

实验结果表明,在LoCoMo、LongMemEval和HotpotQA等数据集上,BudgetMem在优先考虑性能的高预算设置下,超越了强大的基线模型。在更严格的预算限制下,BudgetMem也实现了更好的准确率-成本权衡。这些结果验证了BudgetMem的有效性,并表明其在不同预算条件下均能提供良好的性能。

🎯 应用场景

BudgetMem可应用于需要长期记忆和复杂推理的LLM Agent任务,例如智能客服、对话系统、游戏AI等。通过动态调整记忆处理的预算,可以在资源受限的环境下实现更好的性能,或在性能要求高的场景下充分利用计算资源。该研究为Agent记忆管理提供了一种新的思路,有助于提升Agent的智能化水平和应用范围。

📄 摘要(原文)

Memory is increasingly central to Large Language Model (LLM) agents operating beyond a single context window, yet most existing systems rely on offline, query-agnostic memory construction that can be inefficient and may discard query-critical information. Although runtime memory utilization is a natural alternative, prior work often incurs substantial overhead and offers limited explicit control over the performance-cost trade-off. In this work, we present \textbf{BudgetMem}, a runtime agent memory framework for explicit, query-aware performance-cost control. BudgetMem structures memory processing as a set of memory modules, each offered in three budget tiers (i.e., \textsc{Low}/\textsc{Mid}/\textsc{High}). A lightweight router performs budget-tier routing across modules to balance task performance and memory construction cost, which is implemented as a compact neural policy trained with reinforcement learning. Using BudgetMem as a unified testbed, we study three complementary strategies for realizing budget tiers: implementation (method complexity), reasoning (inference behavior), and capacity (module model size). Across LoCoMo, LongMemEval, and HotpotQA, BudgetMem surpasses strong baselines when performance is prioritized (i.e., high-budget setting), and delivers better accuracy-cost frontiers under tighter budgets. Moreover, our analysis disentangles the strengths and weaknesses of different tiering strategies, clarifying when each axis delivers the most favorable trade-offs under varying budget regimes.