From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

作者: Changmin Lee, Jaemin Kim, Taesik Gong

分类: cs.CL, cs.AI, cs.IR, cs.LG

发布日期: 2026-05-18

备注: Accepted to ICML 2026. Code and data are available at https://github.com/UbiquitousAILab/EPIC

💡 一句话要点

提出EPIC，通过偏好对齐的内存构建，实现高效的端侧RAG

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 端侧RAG 用户偏好 索引构建 内存优化 检索效率 个人AI代理 设备智能

📋 核心要点

现有端侧RAG系统在内存受限的情况下，难以有效存储和检索与用户偏好对齐的个人上下文信息。
EPIC方法通过将用户偏好作为核心，选择性地保留和索引偏好相关信息，从而优化RAG流程。
实验表明，EPIC显著降低了内存占用和检索延迟，同时提高了偏好遵循的准确性，尤其是在端侧设备上。

📝 摘要（中文）

随着基于大型语言模型(LLM)的个人AI代理的快速兴起，在设备上实现它们对于隐私和响应速度至关重要。为了处理现实世界请求中固有的个人和上下文依赖性，这些代理必须将其生成建立在设备上的个人上下文中。然而，在紧张的内存预算下，核心瓶颈在于存储什么，以便检索与用户保持一致。我们提出了EPIC（高效偏好对齐索引构建），它侧重于用户偏好作为个人上下文的一种紧凑且稳定的形式，并将其集成到整个RAG流程中。EPIC选择性地保留来自原始数据的偏好相关信息，并将检索与偏好对齐的上下文对齐。在涵盖对话、辩论、解释和推荐的四个基准测试中，EPIC将索引内存减少了2404倍，将偏好遵循准确率提高了20.17个百分点，并实现了比性能最佳的基线低33.33倍的检索延迟。在我们的设备实验中，EPIC在流式更新中保持了低于1 MB的内存占用，查询延迟为29.35 ms。

🔬 方法详解

问题定义：在端侧设备上，由于内存资源有限，如何构建一个能够有效存储和检索用户个人上下文信息的RAG系统是一个挑战。现有的方法通常难以在内存占用、检索效率和用户偏好对齐之间取得平衡，导致检索结果与用户意图不符，影响用户体验。

核心思路：EPIC的核心思路是将用户偏好作为RAG流程的中心，通过选择性地保留和索引与用户偏好相关的信息，从而在有限的内存资源下实现高效的检索。这种方法能够更好地捕捉用户的个性化需求，并提供更符合用户期望的答案。

技术框架：EPIC的整体框架包括以下几个主要阶段：1) 数据预处理：从原始数据中提取信息，并根据用户偏好进行过滤和筛选，只保留与用户偏好相关的信息。2) 索引构建：基于筛选后的数据构建索引，以便快速检索相关信息。3) 检索：根据用户查询，从索引中检索与用户偏好对齐的上下文信息。4) 生成：利用检索到的上下文信息，生成最终的答案。

关键创新：EPIC最重要的创新点在于其偏好对齐的索引构建方法。与传统的RAG系统不同，EPIC不是简单地存储所有数据，而是根据用户偏好选择性地保留信息。这种方法能够显著降低内存占用，并提高检索效率。此外，EPIC还通过优化检索算法，进一步提高了检索的准确性和效率。

关键设计：EPIC的关键设计包括：1) 偏好表示：使用一种紧凑且稳定的形式来表示用户偏好，例如用户历史行为或明确的偏好设置。2) 偏好对齐损失：设计一种损失函数，用于衡量检索到的上下文信息与用户偏好之间的对齐程度，并优化检索算法，使其能够更好地检索与用户偏好对齐的信息。3) 索引结构：采用一种高效的索引结构，例如倒排索引或向量索引，以便快速检索相关信息。

📊 实验亮点

EPIC在四个基准测试中表现出色，索引内存减少了2404倍，偏好遵循准确率提高了20.17个百分点，检索延迟降低了33.33倍。在端侧实验中，EPIC在流式更新中保持了低于1MB的内存占用，查询延迟仅为29.35ms，证明了其在资源受限环境下的高效性。

🎯 应用场景

EPIC技术可广泛应用于各种端侧AI应用，如个人助理、智能推荐系统、对话机器人等。通过在设备上存储和检索用户个人上下文信息，EPIC能够提供更个性化、更贴心的服务，同时保护用户隐私。未来，EPIC有望成为端侧AI应用的关键技术之一。

📄 摘要（原文）

With the rapid emergence of personal AI agents based on Large Language Models (LLMs), implementing them on-device has become essential for privacy and responsiveness. To handle the inherently personal and context-dependent nature of real-world requests, such agents must ground their generation in device-resident personal context. However, under tight memory budgets, the core bottleneck is what to store so that retrieval remains aligned with the user. We propose EPIC (Efficient Preference-aligned Index Construction), which focuses on user preferences as a compact and stable form of personal context and integrates them throughout the RAG pipeline. EPIC selectively retains preference-relevant information from raw data and aligns retrieval toward preference-aligned contexts. Across four benchmarks covering conversations, debates, explanations, and recommendations, EPIC reduces indexing memory by 2,404 times, improves preference-following accuracy by 20.17 percentage points, and achieves 33.33 times lower retrieval latency over the best-performing baseline. In our on-device experiment, EPIC maintains a memory footprint under 1 MB with 29.35 ms/query latency in streaming updates.

From Volume to Value: Preference-Aligned Memory Construction for On-Device RAG

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理