From My View to Yours: Ego-to-Exo Transfer in VLMs for Understanding Activities of Daily Living
作者: Dominick Reilly, Manish Kumar Govind, Le Xue, Srijan Das
分类: cs.CV
发布日期: 2025-01-10 (更新: 2025-12-16)
🔗 代码/项目: GITHUB
💡 一句话要点
提出Ego2ExoVLM,解决VLM在日常活动理解中视角不变性导致的自中心属性感知不足问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 视觉语言模型 自中心视角 外中心视角 知识蒸馏 日常生活活动理解
📋 核心要点
- 现有VLM的视角不变性训练使其难以理解外中心视角下的人与物交互等自中心属性,限制了其在ADL监测等领域的应用。
- Ego2ExoVLM通过Ego2Exo序列蒸馏和Ego自适应视觉tokens,将自中心视角知识迁移到外中心视角,从而提升VLM的自中心属性感知能力。
- Ego2ExoVLM在ADL-X基准测试中取得了SOTA结果,并在新提出的Ego-in-Exo感知基准测试中超越了现有基线方法。
📝 摘要(中文)
视觉语言模型(VLM)在各种视频理解任务中表现出色。然而,其视角不变性训练限制了从外中心视频观察中理解自中心属性(例如,人与物体的交互)的能力。这种限制对于许多应用至关重要,例如日常生活活动(ADL)监测,其中理解自中心属性至关重要,并且自中心相机在部署上不切实际。为了解决这个限制,我们提出了Ego2ExoVLM,一个VLM,它通过在训练期间利用时间同步的自-外中心视频来学习从外中心视频中推断自中心属性。Ego2ExoVLM通过使用两个组件来实现这一点:Ego2Exo序列蒸馏,它将知识从自中心教师转移到外中心学生,以及Ego自适应视觉tokens,旨在提高这种知识转移的有效性。为了衡量这种能力,我们引入了Ego-in-Exo感知,这是一个包含3.9K个问题的基准,专门用于衡量从外中心视频中理解自中心属性的能力。Ego2ExoVLM在Ego-in-Exo感知和现有的ADL基准测试中的10个任务上进行了评估,在ADL-X基准测试套件上取得了最先进的结果,并在我们提出的基准测试中优于强大的基线。
🔬 方法详解
问题定义:现有视觉语言模型(VLM)在视频理解任务中表现出色,但由于其视角不变性的训练方式,导致其难以从外中心视角视频中理解自中心属性,例如人与物体的交互。这限制了VLM在日常生活活动(ADL)监测等领域的应用,因为这些应用需要理解自中心属性,但部署自中心相机并不总是可行。
核心思路:论文的核心思路是通过知识蒸馏,将自中心视角(ego-centric)的知识迁移到外中心视角(exo-centric)的VLM中。具体来说,利用时间同步的自-外中心视频对,训练一个外中心视角的VLM,使其能够理解自中心视角下的属性。这样设计的目的是让VLM能够从更常见的、更容易获取的外中心视角视频中,推断出原本需要自中心视角才能观察到的信息。
技术框架:Ego2ExoVLM包含两个主要组件:Ego2Exo序列蒸馏和Ego自适应视觉tokens。Ego2Exo序列蒸馏使用自中心视角的VLM作为教师模型,外中心视角的VLM作为学生模型,通过序列蒸馏的方式将知识从教师模型迁移到学生模型。Ego自适应视觉tokens则是一种特殊的视觉tokens,用于增强知识迁移的有效性。整体流程是:输入时间同步的自-外中心视频对,自中心VLM提取特征并生成预测,外中心VLM也提取特征并生成预测,然后通过Ego2Exo序列蒸馏损失函数,使得外中心VLM的预测尽可能接近自中心VLM的预测。
关键创新:论文的关键创新在于提出了Ego2Exo序列蒸馏和Ego自适应视觉tokens,用于解决VLM在视角不变性训练下,难以理解外中心视角视频中的自中心属性的问题。Ego2Exo序列蒸馏是一种有效的知识迁移方法,可以将自中心视角的知识迁移到外中心视角,而Ego自适应视觉tokens则进一步增强了知识迁移的效果。
关键设计:Ego2Exo序列蒸馏使用交叉熵损失函数作为蒸馏损失,鼓励外中心VLM的预测分布接近自中心VLM的预测分布。Ego自适应视觉tokens的设计细节未知,但其目的是让外中心VLM能够更好地关注与自中心属性相关的视觉信息。论文还提出了Ego-in-Exo感知基准测试,用于评估VLM从外中心视频中理解自中心属性的能力。
🖼️ 关键图片
📊 实验亮点
Ego2ExoVLM在ADL-X基准测试套件上取得了state-of-the-art的结果,证明了其在ADL理解方面的优越性。此外,在作者提出的Ego-in-Exo感知基准测试中,Ego2ExoVLM也显著优于现有的基线方法,表明其能够有效地从外中心视频中理解自中心属性。具体性能数据未知。
🎯 应用场景
该研究成果可应用于智能家居、养老监护、安全监控等领域。通过分析固定摄像头拍摄的视频,可以识别老年人的日常活动,判断是否存在跌倒等风险,从而提供及时的帮助。此外,该技术还可以用于分析工厂工人的操作行为,提高生产效率和安全性。未来,该技术有望与机器人结合,实现更智能化的服务。
📄 摘要(原文)
Vision Language Models (VLMs) have achieved strong performance across diverse video understanding tasks. However, their viewpoint invariant training limits their ability to understand egocentric properties (e.g., human object interactions) from exocentric video observations. This limitation is critical for many applications, such as Activities of Daily Living (ADL) monitoring, where the understanding of egocentric properties is essential, and egocentric cameras are impractical to deploy. To address this limitation, we propose Ego2ExoVLM, a VLM that learns to infer egocentric properties from exocentric videos by leveraging time-synchronized ego-exo videos during training. Ego2ExoVLM accomplishes this through the use of two components: Ego2Exo Sequence Distillation, which transfers knowledge from an egocentric teacher to an exocentric student, and Ego Adaptive Visual Tokens, designed to enhance the effectiveness of this knowledge transfer. To measure this capability, we introduce Ego-in-Exo Perception, a benchmark of 3.9K questions curated to explicitly measure the understanding of egocentric properties from exocentric videos. Ego2ExoVLM is evaluated on 10 tasks across Ego-in-Exo Perception and existing ADL benchmarks, achieving state-of-the-art results on the ADL-X benchmark suite and outperforming strong baselines on our proposed benchmark. All code, models, and data will be released at https://github.com/dominickrei/EgoExo4ADL.