Personal Visual Context Learning in Large Multimodal Models

作者: Zihui Xue, Ami Baid, Sangho Kim, Mi Luo, Kristen Grauman

分类: cs.CV

发布日期: 2026-05-11

备注: Project website: https://vision.cs.utexas.edu/projects/PersonalVCL/

💡 一句话要点

提出个人视觉上下文学习（Personal VCL）框架与Agentic Context Bank，提升大模型对用户专属视觉信息的理解能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大模型 视觉个性化 第一人称视觉 记忆增强 多模态推理 上下文学习

📋 核心要点

现有LMMs在处理长时序、个性化视觉流时，缺乏有效利用和聚合用户专属视觉证据的能力，导致上下文利用存在显著鸿沟。
提出Agentic Context Bank方法，通过构建自精炼记忆库并结合查询自适应证据选择机制，实现对用户视觉上下文的高效管理与检索。
实验表明，该方法在Personal-VCL-Bench基准上显著超越了传统的上下文提示方案，验证了其在提升个性化视觉推理任务中的有效性。

📝 摘要（中文）

随着智能眼镜等可穿戴设备将大模型（LMMs）集成到用户的连续第一人称视觉流中，模型演进为个人助理的关键在于视觉个性化，即推理用户专属视觉信息的能力。本文将此能力形式化为“个人视觉上下文学习”（Personal VCL），即在提示阶段利用用户特定视觉上下文解决个性化查询的能力。为系统评估该能力，我们提出了Personal-VCL-Bench基准，涵盖人物、物体及行为等个人视觉世界。分析显示，现有前沿LMMs在利用视觉证据及聚合多观察结果方面存在显著的上下文利用鸿沟。为此，我们提出了Agentic Context Bank，这是一种推理时基准方法，通过将用户视觉上下文结构化为自精炼记忆库，并采用查询自适应证据选择机制，在多种任务和骨干模型上显著优于标准上下文提示方案，为未来个性化LMMs提供了实践路径。

🔬 方法详解

问题定义：论文旨在解决大模型在处理第一人称视角（Egocentric）视频流时，无法有效关联和推理用户特定视觉历史的问题。现有方法多依赖简单的上下文拼接，难以处理长时序、多模态的个性化视觉信息。

核心思路：引入“个人视觉上下文学习”（Personal VCL）概念，将视觉记忆视为一种动态资源。通过构建结构化的记忆库，使模型能够根据当前查询主动筛选和整合相关的历史视觉证据，而非盲目处理所有历史帧。

技术框架：整体架构包含记忆库构建模块和查询自适应选择模块。系统首先将连续的视觉流转化为结构化的记忆条目，随后在推理阶段，根据用户的查询意图，通过检索机制从记忆库中提取最相关的视觉证据，最后输入LMM进行推理。

关键创新：核心创新在于“Agentic”属性，即模型具备主动管理记忆的能力。通过自精炼机制（Self-refining memory bank），系统能够动态更新记忆库内容，剔除冗余信息，保留对个性化推理至关重要的视觉特征。

关键设计：采用了查询自适应的证据选择策略（Query-adaptive evidence selection），利用语义相似度或任务相关性对记忆条目进行加权，并结合了针对第一人称视角特征优化的视觉编码器，确保在有限的上下文窗口内实现信息密度最大化。

🖼️ 关键图片

📊 实验亮点

研究构建了首个针对个人视觉世界的基准Personal-VCL-Bench。实验结果表明，Agentic Context Bank在处理复杂个性化查询时，相比传统提示方法（如直接拼接历史帧），在准确率和推理效率上均有显著提升，证明了结构化记忆库在弥补LMM上下文利用鸿沟方面的关键作用。

🎯 应用场景

该研究主要应用于智能眼镜、AR/VR头显等可穿戴设备。通过赋予设备“长期记忆”，使其能精准回答如“我把钥匙放在哪了？”或“我上次见到某人是在什么时候？”等个性化问题，极大提升了个人AI助理在日常生活、辅助记忆及工作场景中的实用价值。

📄 摘要（原文）

As wearable devices like smart glasses integrate Large Multimodal Models (LMMs) into the continuous first-person visual streams of individual users, the evolution of these models into true personal assistants hinges on visual personalization: the ability to reason over visual information unique to the wearer. We formalize this capability as Personal Visual Context Learning (Personal VCL), the prompt-time capability of using user-specific visual context to resolve personalized queries. To systematically evaluate this, we present Personal-VCL-Bench, a comprehensive benchmark capturing the personal visual world across persons, objects, and behaviors. Our analysis of frontier LMMs identifies a profound context utilization gap, revealing that the mechanisms for leveraging visual evidence, as well as aggregating multiple visual observations, remain critically understudied. Motivated by these findings, we propose the Agentic Context Bank, a strong inference-time baseline that structures a user's visual context into a self-refining memory bank and employs query-adaptive evidence selection. Our baseline approach consistently improves over standard context prompting regimes across tasks and evaluated backbones, demonstrating a practical path towards future personalized LMMs.

Personal Visual Context Learning in Large Multimodal Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理