From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

📄 arXiv: 2605.18271v1 📥 PDF

作者: Changmin Lee, Jaemin Kim, Taesik Gong

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2026-05-18

备注: Accepted to ICML 2026. Code and data are available at https://github.com/UbiquitousAILab/EPIC


💡 一句话要点

提出EPIC,通过偏好对齐的内存构建,实现高效的端侧RAG

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 端侧RAG 用户偏好 索引构建 内存优化 检索效率 个人AI代理 设备智能

📋 核心要点

  1. 现有端侧RAG系统在内存受限的情况下,难以有效存储和检索与用户偏好对齐的个人上下文信息。
  2. EPIC方法通过将用户偏好作为核心,选择性地保留和索引偏好相关信息,从而优化RAG流程。
  3. 实验表明,EPIC显著降低了内存占用和检索延迟,同时提高了偏好遵循的准确性,尤其是在端侧设备上。

📝 摘要(中文)

随着基于大型语言模型(LLM)的个人AI代理的快速兴起,在设备上实现它们对于隐私和响应速度至关重要。为了处理现实世界请求中固有的个人和上下文依赖性,这些代理必须将其生成建立在设备上的个人上下文中。然而,在紧张的内存预算下,核心瓶颈在于存储什么,以便检索与用户保持一致。我们提出了EPIC(高效偏好对齐索引构建),它侧重于用户偏好作为个人上下文的一种紧凑且稳定的形式,并将其集成到整个RAG流程中。EPIC选择性地保留来自原始数据的偏好相关信息,并将检索与偏好对齐的上下文对齐。在涵盖对话、辩论、解释和推荐的四个基准测试中,EPIC将索引内存减少了2404倍,将偏好遵循准确率提高了20.17个百分点,并实现了比性能最佳的基线低33.33倍的检索延迟。在我们的设备实验中,EPIC在流式更新中保持了低于1 MB的内存占用,查询延迟为29.35 ms。

🔬 方法详解

问题定义:在端侧设备上,由于内存资源有限,如何构建一个能够有效存储和检索用户个人上下文信息的RAG系统是一个挑战。现有的方法通常难以在内存占用、检索效率和用户偏好对齐之间取得平衡,导致检索结果与用户意图不符,影响用户体验。

核心思路:EPIC的核心思路是将用户偏好作为RAG流程的中心,通过选择性地保留和索引与用户偏好相关的信息,从而在有限的内存资源下实现高效的检索。这种方法能够更好地捕捉用户的个性化需求,并提供更符合用户期望的答案。

技术框架:EPIC的整体框架包括以下几个主要阶段:1) 数据预处理:从原始数据中提取信息,并根据用户偏好进行过滤和筛选,只保留与用户偏好相关的信息。2) 索引构建:基于筛选后的数据构建索引,以便快速检索相关信息。3) 检索:根据用户查询,从索引中检索与用户偏好对齐的上下文信息。4) 生成:利用检索到的上下文信息,生成最终的答案。

关键创新:EPIC最重要的创新点在于其偏好对齐的索引构建方法。与传统的RAG系统不同,EPIC不是简单地存储所有数据,而是根据用户偏好选择性地保留信息。这种方法能够显著降低内存占用,并提高检索效率。此外,EPIC还通过优化检索算法,进一步提高了检索的准确性和效率。

关键设计:EPIC的关键设计包括:1) 偏好表示:使用一种紧凑且稳定的形式来表示用户偏好,例如用户历史行为或明确的偏好设置。2) 偏好对齐损失:设计一种损失函数,用于衡量检索到的上下文信息与用户偏好之间的对齐程度,并优化检索算法,使其能够更好地检索与用户偏好对齐的信息。3) 索引结构:采用一种高效的索引结构,例如倒排索引或向量索引,以便快速检索相关信息。

📊 实验亮点

EPIC在四个基准测试中表现出色,索引内存减少了2404倍,偏好遵循准确率提高了20.17个百分点,检索延迟降低了33.33倍。在端侧实验中,EPIC在流式更新中保持了低于1MB的内存占用,查询延迟仅为29.35ms,证明了其在资源受限环境下的高效性。

🎯 应用场景

EPIC技术可广泛应用于各种端侧AI应用,如个人助理、智能推荐系统、对话机器人等。通过在设备上存储和检索用户个人上下文信息,EPIC能够提供更个性化、更贴心的服务,同时保护用户隐私。未来,EPIC有望成为端侧AI应用的关键技术之一。

📄 摘要(原文)

With the rapid emergence of personal AI agents based on Large Language Models (LLMs), implementing them on-device has become essential for privacy and responsiveness. To handle the inherently personal and context-dependent nature of real-world requests, such agents must ground their generation in device-resident personal context. However, under tight memory budgets, the core bottleneck is what to store so that retrieval remains aligned with the user. We propose EPIC (Efficient Preference-aligned Index Construction), which focuses on user preferences as a compact and stable form of personal context and integrates them throughout the RAG pipeline. EPIC selectively retains preference-relevant information from raw data and aligns retrieval toward preference-aligned contexts. Across four benchmarks covering conversations, debates, explanations, and recommendations, EPIC reduces indexing memory by 2,404 times, improves preference-following accuracy by 20.17 percentage points, and achieves 33.33 times lower retrieval latency over the best-performing baseline. In our on-device experiment, EPIC maintains a memory footprint under 1 MB with 29.35 ms/query latency in streaming updates.