Do Egocentric Video-Language Models Truly Understand Hand-Object Interactions?
作者: Boshen Xu, Ziheng Wang, Yang Du, Zhinan Song, Sipeng Zheng, Qin Jin
分类: cs.CV
发布日期: 2024-05-28 (更新: 2025-02-20)
备注: Accepted by ICLR 2025. Code: https://github.com/xuboshen/EgoNCEpp
🔗 代码/项目: GITHUB
💡 一句话要点
提出EgoNCE++,提升Egocentric视频语言模型对手部-物体交互的理解能力
🎯 匹配领域: 支柱五:交互与反应 (Interaction & Reaction) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Egocentric视频 视频语言模型 手部-物体交互 对比学习 非对称学习
📋 核心要点
- 现有EgoVLM模型在理解手部-物体交互时,对交互描述的细微变化敏感,泛化能力不足。
- 提出EgoNCE++,通过非对称对比学习,增强模型对动词和名词的区分能力,提升细粒度理解。
- 实验表明,EgoNCE++显著提升了EgoVLM在多实例检索、动作识别和时间理解等任务上的性能。
📝 摘要(中文)
Egocentric视频语言预训练是提升第一人称视角下手部-物体交互理解的关键步骤。尽管现有模型在现有测试集上表现良好,但我们发现它们容易被简单修改误导,例如改变交互描述中的动词或名词,模型难以区分这些变化。这引发了一个问题:EgoVLM真的理解手部-物体交互吗?为了解决这个问题,我们引入了一个名为EgoHOIBench的基准,揭示了当前模型在面临此类挑战时的性能局限性。我们将此性能差距归因于缺乏细粒度的监督,以及EgoVLM在识别动词方面比识别名词更困难。为了解决这些问题,我们提出了一种名为EgoNCE++的新型非对称对比目标。对于视频到文本的目标,我们通过使用大型语言模型生成负面描述或利用预训练词汇进行HOI相关词替换来增强文本监督。对于文本到视频的目标,我们专注于保持一个以对象为中心的特征空间,该空间基于共享名词对视频表示进行聚类。大量实验表明,EgoNCE++显著增强了EgoHOI的理解,从而提高了各种EgoVLM在多实例检索、动作识别和时间理解等任务中的性能。
🔬 方法详解
问题定义:现有Egocentric视频语言模型(EgoVLM)在理解手部-物体交互(Hand-Object Interaction, HOI)时,虽然在现有数据集上表现不错,但对交互描述的细微变化非常敏感。例如,简单地改变描述中的动词或名词,模型就难以正确识别。这表明现有模型可能并没有真正理解HOI的语义,而是依赖于一些表面上的相关性。因此,论文旨在提升EgoVLM模型对手部-物体交互的细粒度理解能力。
核心思路:论文的核心思路是通过引入一种新的非对称对比学习目标EgoNCE++,来增强模型对HOI中动词和名词的区分能力。具体来说,EgoNCE++分别针对视频到文本和文本到视频两个方向,采用不同的策略来增强对比学习的监督信号。对于视频到文本,通过生成更具挑战性的负样本描述来提升模型区分能力;对于文本到视频,则侧重于构建一个以物体为中心的特征空间,使得具有相同物体的视频片段在特征空间中更加接近。
技术框架:EgoNCE++方法主要包含两个部分:视频到文本的对比学习和文本到视频的对比学习。在视频到文本的对比学习中,首先使用视频编码器提取视频特征,然后使用文本编码器提取文本特征,最后计算视频特征和文本特征之间的相似度。为了生成更具挑战性的负样本描述,论文使用了大型语言模型或预训练词汇进行HOI相关词替换。在文本到视频的对比学习中,首先使用文本编码器提取文本特征,然后使用视频编码器提取视频特征,最后计算文本特征和视频特征之间的相似度。为了构建一个以物体为中心的特征空间,论文设计了一个损失函数,使得具有相同物体的视频片段在特征空间中更加接近。
关键创新:EgoNCE++的关键创新在于其非对称对比学习目标。传统的对比学习通常采用对称的方式,即对视频到文本和文本到视频采用相同的策略。而EgoNCE++则针对两个方向的特点,分别设计了不同的策略。对于视频到文本,侧重于生成更具挑战性的负样本描述;对于文本到视频,则侧重于构建一个以物体为中心的特征空间。这种非对称的设计能够更好地利用视频和文本的信息,从而提升模型对HOI的理解能力。
关键设计:在视频到文本的对比学习中,负样本的生成方式是关键。论文使用了两种方式生成负样本:一是使用大型语言模型生成与正样本描述相似但语义不同的描述;二是使用预训练词汇进行HOI相关词替换,例如将“拿起苹果”替换为“拿起香蕉”。在文本到视频的对比学习中,论文设计了一个object-centric的损失函数,该损失函数鼓励具有相同物体的视频片段在特征空间中更加接近。具体来说,该损失函数计算了所有具有相同物体的视频片段之间的距离,并最小化这些距离。
🖼️ 关键图片
📊 实验亮点
实验结果表明,EgoNCE++在EgoHOIBench基准上显著提升了EgoVLM的性能。例如,在多实例检索任务中,EgoNCE++将R@1指标提升了5%以上。此外,EgoNCE++还在动作识别和时间理解等任务上取得了显著的提升,证明了其有效性。
🎯 应用场景
该研究成果可应用于机器人辅助、虚拟现实、智能监控等领域。例如,在机器人辅助场景中,机器人可以通过理解人的手部动作和操作的物体,更好地完成任务。在虚拟现实场景中,可以提升虚拟人物与用户交互的真实感。在智能监控领域,可以用于识别异常行为,例如盗窃或破坏。
📄 摘要(原文)
Egocentric video-language pretraining is a crucial step in advancing the understanding of hand-object interactions in first-person scenarios. Despite successes on existing testbeds, we find that current EgoVLMs can be easily misled by simple modifications, such as changing the verbs or nouns in interaction descriptions, with models struggling to distinguish between these changes. This raises the question: Do EgoVLMs truly understand hand-object interactions? To address this question, we introduce a benchmark called EgoHOIBench, revealing the performance limitation of current egocentric models when confronted with such challenges. We attribute this performance gap to insufficient fine-grained supervision and the greater difficulty EgoVLMs experience in recognizing verbs compared to nouns. To tackle these issues, we propose a novel asymmetric contrastive objective named EgoNCE++. For the video-to-text objective, we enhance text supervision by generating negative captions using large language models or leveraging pretrained vocabulary for HOI-related word substitutions. For the text-to-video objective, we focus on preserving an object-centric feature space that clusters video representations based on shared nouns. Extensive experiments demonstrate that EgoNCE++ significantly enhances EgoHOI understanding, leading to improved performance across various EgoVLMs in tasks such as multi-instance retrieval, action recognition, and temporal understanding. Our code is available at https://github.com/xuboshen/EgoNCEpp.