BudgetMem: Learning Selective Memory Policies for Cost-Efficient Long-Context Processing in Language Models
作者: Chandra Vamsi Krishna Alla, Harish Naidu Gaddam, Manohar Kommi
分类: cs.CL, cs.AI
发布日期: 2025-11-07
备注: 11 pages, 3 figures, 5 tables. Evaluated on 700 QA pairs across multiple document lengths
💡 一句话要点
BudgetMem:面向资源受限场景,学习选择性记忆策略以实现高效长文本处理
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长文本处理 选择性记忆 资源受限 检索增强生成 显著性评分
📋 核心要点
- 现有长文本处理方法面临计算和内存瓶颈,限制了其在资源受限环境中的应用。
- BudgetMem通过学习选择性记忆策略,结合显著性评分和门控机制,在预算约束下高效存储关键信息。
- 实验表明,BudgetMem在长文档问答任务中,显著降低内存占用,同时保持了接近基线的性能。
📝 摘要(中文)
大型语言模型(LLMs)在处理长文本时面临着巨大的计算和内存限制,而对需要推理大量文档、多会话对话和书籍长度文本的应用的需求却在不断增长。尽管最近的进展已将上下文窗口扩展到10万-100万个token,但这种方法对于资源受限的部署来说成本过高。我们提出了BudgetMem,一种新颖的记忆增强架构,它学习记住什么,而不是记住所有内容。我们的系统将选择性记忆策略与基于特征的显著性评分(实体密度、TF-IDF、话语标记、位置偏差)相结合,以决定在严格的预算约束下哪些信息值得存储。与存储所有块的现有检索增强生成(RAG)系统不同,BudgetMem采用学习到的门控机制以及BM25稀疏检索来实现高效的信息访问。通过对Llama-3.2-3B-Instruct在短文档(237个token)和长文档(5K-10K个token)上的700个问答对进行全面实验,我们证明了BudgetMem在长文档上取得了显著成果:与基线RAG相比,仅损失1.0%的F1分数,同时节省了72.4%的内存。我们通过预算敏感性分析(测试7个预算比率)、朴素基线比较和文档长度分析验证了我们的方法,表明BudgetMem的优势随着文档长度的增加而增加。我们的工作为在适度的硬件上部署强大的长文本系统提供了一条实用的途径,从而普及了对高级语言理解能力的访问。
🔬 方法详解
问题定义:现有的大型语言模型在处理长文本时,需要消耗大量的计算资源和内存。即使上下文窗口扩展到很大,但对于资源受限的场景,例如边缘设备或低成本服务器,仍然难以部署。现有的检索增强生成(RAG)方法通常存储所有文本块,造成了不必要的资源浪费。
核心思路:BudgetMem的核心思想是只记住重要的信息,而不是记住所有信息。通过学习选择性记忆策略,系统可以根据预定义的预算,决定哪些信息应该被存储到外部记忆中。这样可以在保证性能的同时,显著降低内存占用,从而使得长文本处理能够在资源受限的环境中进行。
技术框架:BudgetMem的整体架构包括以下几个主要模块:1) 特征提取模块:提取文本块的显著性特征,例如实体密度、TF-IDF、话语标记和位置偏差。2) 显著性评分模块:基于提取的特征,对每个文本块进行显著性评分。3) 门控机制:学习一个门控网络,根据显著性评分和预算约束,决定是否将文本块存储到外部记忆中。4) 外部记忆:存储被选择的文本块。5) 检索模块:使用BM25等稀疏检索方法,从外部记忆中检索相关信息。6) 生成模块:利用检索到的信息和原始输入,生成最终的输出。
关键创新:BudgetMem的关键创新在于学习选择性记忆策略。与传统的RAG方法不同,BudgetMem不是简单地存储所有文本块,而是通过学习一个门控网络,根据显著性评分和预算约束,动态地选择需要存储的信息。这种方法可以有效地降低内存占用,同时保证性能。
关键设计:BudgetMem的关键设计包括:1) 显著性特征的选择:选择了实体密度、TF-IDF、话语标记和位置偏差等特征,这些特征能够有效地反映文本块的重要性。2) 门控网络的结构:门控网络可以使用各种神经网络结构,例如全连接网络或循环神经网络。3) 损失函数的设计:损失函数需要考虑性能和内存占用之间的平衡。可以使用正则化项来约束内存占用。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BudgetMem在长文档问答任务中,与基线RAG相比,仅损失了1.0%的F1分数,同时节省了72.4%的内存。通过预算敏感性分析,证明了BudgetMem在不同预算约束下都能有效地平衡性能和内存占用。此外,实验还表明,BudgetMem的优势随着文档长度的增加而增加。
🎯 应用场景
BudgetMem适用于各种需要处理长文本,但资源受限的应用场景。例如,它可以用于移动设备上的文档阅读和问答,边缘服务器上的智能客服,以及低成本服务器上的长文本摘要和生成。该研究有助于在资源有限的环境下部署更强大的语言模型,从而促进人工智能的普及。
📄 摘要(原文)
Large Language Models (LLMs) face significant computational and memory constraints when processing long contexts, despite growing demand for applications requiring reasoning over extensive documents, multi-session dialogues, and book length texts. While recent advances have extended context windows to 100K-1M tokens, such approaches incur prohibitive costs for resource constrained deployments. We propose BudgetMem, a novel memory augmented architecture that learns what to remember rather than remembering everything. Our system combines selective memory policies with feature based salience scoring (entity density, TF-IDF, discourse markers, position bias) to decide which information merits storage under strict budget constraints. Unlike existing retrieval augmented generation (RAG) systems that store all chunks, BudgetMem employs learned gating mechanisms coupled with BM25 sparse retrieval for efficient information access. Through comprehensive experiments on 700 question answer pairs across short (237 tokens) and long (5K-10K tokens) documents with Llama-3.2-3B-Instruct, we demonstrate that BudgetMem achieves remarkable results on long documents: only 1.0% F1 score degradation while saving 72.4% memory compared to baseline RAG. We validate our approach through budget sensitivity analysis (testing 7 budget ratios), naive baseline comparisons, and document length analysis, showing that BudgetMem's benefits increase with document length. Our work provides a practical pathway for deploying capable long context systems on modest hardware, democratizing access to advanced language understanding capabilities.