EgoSelf: From Memory to Personalized Egocentric Assistant

📄 arXiv: 2604.19564v1 📥 PDF

作者: Yanshuo Wang, Yuan Xu, Xuesong Li, Jie Hong, Yizhou Wang, Chang Wen Chen, Wentao Zhu

分类: cs.CV, cs.AI

发布日期: 2026-04-21

🔗 代码/项目: PROJECT_PAGE | PROJECT_PAGE


💡 一句话要点

EgoSelf:构建个性化第一人称视角助手,利用图记忆实现长期用户行为建模。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 第一人称视角 个性化助手 图记忆 用户行为建模 行为预测

📋 核心要点

  1. 第一人称视角助手依赖用户行为和上下文数据,但有效整合长期用户数据以实现个性化仍然是一个挑战。
  2. EgoSelf系统构建图结构的交互记忆,从历史观察中提取用户特定配置文件,用于预测未来交互。
  3. 实验结果表明,EgoSelf能够有效地作为个性化第一人称视角助手,提升用户体验。

📝 摘要(中文)

本文提出EgoSelf系统,旨在解决个性化第一人称视角助手长期用户数据集成难题。EgoSelf包含一个基于图的交互记忆,该记忆由过去的观察构建而成,并专门设计了一个用于个性化的学习任务。该记忆捕获交互事件和实体之间的时间和语义关系,从中可以推导出用户特定的配置文件。个性化学习任务被形式化为一个预测问题,模型根据图记录的个体用户历史行为预测可能的未来交互。大量实验证明了EgoSelf作为个性化第一人称视角助手的有效性。

🔬 方法详解

问题定义:现有第一人称视角助手难以有效整合长期用户数据,无法充分捕捉不同用户的习惯、偏好和日常活动,导致个性化服务效果不佳。痛点在于如何从长期、复杂的交互数据中提取用户特定的行为模式,并用于预测未来的用户行为。

核心思路:EgoSelf的核心思路是构建一个基于图的交互记忆,用于存储和组织用户的历史交互数据。通过图结构,可以有效地捕获交互事件和实体之间的时间和语义关系。然后,利用这些关系来学习用户特定的配置文件,并用于预测未来的用户行为。这种方法能够更好地捕捉用户的长期行为模式,从而实现更有效的个性化服务。

技术框架:EgoSelf系统主要包含两个模块:图结构的交互记忆和个性化学习任务。交互记忆模块负责存储和组织用户的历史交互数据,并构建图结构来表示交互事件和实体之间的关系。个性化学习任务模块则利用交互记忆中的数据来学习用户特定的配置文件,并用于预测未来的用户行为。整个流程包括数据收集、图构建、用户画像提取和行为预测等阶段。

关键创新:EgoSelf的关键创新在于使用图结构来表示和组织用户的历史交互数据。与传统的序列模型或统计模型相比,图结构能够更好地捕捉交互事件和实体之间的复杂关系。此外,EgoSelf还设计了一个专门用于个性化的学习任务,该任务能够有效地利用图结构中的信息来学习用户特定的配置文件。

关键设计:图结构的构建方式是关键设计之一,节点表示交互事件和实体,边表示它们之间的关系(例如,时间关系、语义关系)。个性化学习任务通常被建模为序列预测问题,可以使用循环神经网络(RNN)或Transformer等模型。损失函数的设计需要考虑预测的准确性和多样性,例如可以使用交叉熵损失或对比学习损失。具体的参数设置和网络结构需要根据具体的数据集和任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了EgoSelf作为个性化第一人称视角助手的有效性。具体的性能数据和对比基线在论文中给出,表明EgoSelf在预测用户未来交互方面取得了显著的提升。实验结果证明了图结构交互记忆和个性化学习任务的有效性。

🎯 应用场景

EgoSelf可应用于智能家居、可穿戴设备、移动应用等领域,为用户提供个性化的服务和推荐。例如,根据用户的日常活动习惯,智能家居系统可以自动调节灯光、温度等设置;可穿戴设备可以根据用户的健康数据提供个性化的健康建议;移动应用可以根据用户的兴趣爱好推荐个性化的内容。

📄 摘要(原文)

Egocentric assistants often rely on first-person view data to capture user behavior and context for personalized services. Since different users exhibit distinct habits, preferences, and routines, such personalization is essential for truly effective assistance. However, effectively integrating long-term user data for personalization remains a key challenge. To address this, we introduce EgoSelf, a system that includes a graph-based interaction memory constructed from past observations and a dedicated learning task for personalization. The memory captures temporal and semantic relationships among interaction events and entities, from which user-specific profiles are derived. The personalized learning task is formulated as a prediction problem where the model predicts possible future interactions from individual user's historical behavior recorded in the graph. Extensive experiments demonstrate the effectiveness of EgoSelf as a personalized egocentric assistant. Code is available at \href{https://abie-e.github.io/egoself_project/}{https://abie-e.github.io/egoself_project/}.