VideoGEM: Training-free Action Grounding in Videos

作者: Felix Vogel, Walid Bousselham, Anna Kukleva, Nina Shvetsova, Hilde Kuehne

分类: cs.CV, cs.AI, cs.CL, cs.LG

发布日期: 2025-03-26

💡 一句话要点

提出VideoGEM，一种无需训练的视频空间动作定位方法，优于现有训练方法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频动作定位 免训练学习 视觉语言模型 自注意力机制 层加权 提示分解 空间定位

📋 核心要点

现有方法在视频动作定位中面临挑战，因为动作缺乏清晰物理轮廓且语义抽象。
VideoGEM通过调整GEM的自注意力机制，并引入层加权和提示分解来解决此问题。
实验表明，VideoGEM在多个数据集上优于当前最先进的训练方法，无需额外训练。

📝 摘要（中文）

视觉-语言基础模型在各种零样本任务中展现了令人印象深刻的能力，包括免训练的定位和基础任务，主要集中在定位图像中的对象。然而，利用这些能力来定位视频中的动作和事件具有挑战性，因为动作的物理轮廓较少，并且通常由更高层次的概念描述。在这项工作中，我们提出了VideoGEM，这是第一个基于预训练图像和视频语言骨干网络的免训练空间动作定位方法。我们调整了GEM的自注意力公式以适应空间活动定位。我们观察到，诸如动作之类的高级语义概念通常出现在图像和视频语言模型的较高层中。因此，我们提出了一种自注意力路径中的层加权，以优先考虑较高层。此外，我们引入了一种动态加权方法来自动调整层权重，以捕获每一层与特定提示的相关性。最后，我们引入了一种提示分解，分别处理动作、动词和对象提示，从而更好地进行动作的空间定位。我们在三个图像和视频语言骨干网络（CLIP、OpenCLIP和ViCLIP）以及四个视频定位数据集（V-HICO、DALY、YouCook-Interactions和GroundingYouTube）上评估了所提出的方法，表明所提出的免训练方法能够优于当前用于空间视频定位的训练后的最先进方法。

🔬 方法详解

问题定义：论文旨在解决视频中动作的空间定位问题。现有方法通常需要大量训练数据，并且难以捕捉动作的高级语义信息，导致定位精度不高。此外，动作的物理轮廓不明显，使得直接应用图像定位方法效果不佳。

核心思路：论文的核心思路是利用预训练的视觉-语言模型（如CLIP）的强大语义理解能力，通过调整自注意力机制，使其能够更好地捕捉动作的高级语义信息，并实现空间定位。通过层加权和提示分解，进一步提升定位精度。

技术框架：VideoGEM的整体框架包括以下几个主要步骤：1) 使用预训练的图像和视频语言模型提取视频帧的特征。2) 将动作描述分解为动作、动词和对象等多个提示。3) 通过调整GEM的自注意力机制，计算每个像素与各个提示的相关性。4) 使用层加权机制，优先考虑模型较高层的特征，因为这些层通常包含更高级的语义信息。5) 使用动态加权方法，自动调整层权重，以适应不同的提示。6) 将各个提示的相关性图融合，得到最终的动作定位结果。

关键创新：VideoGEM的关键创新在于：1) 提出了一种无需训练的空间动作定位方法，避免了对大量标注数据的依赖。2) 调整了GEM的自注意力机制，使其能够更好地捕捉动作的高级语义信息。3) 引入了层加权和动态加权方法，提高了定位精度。4) 提出了提示分解策略，分别处理动作、动词和对象提示，从而更好地进行动作的空间定位。

关键设计：层加权机制通过对不同层的自注意力权重进行加权来实现，权重可以手动设置，也可以通过动态加权方法自动学习。动态加权方法使用一个小的神经网络来预测每一层的权重，该网络的输入是该层的特征向量。提示分解策略将动作描述分解为动作、动词和对象等多个提示，然后分别计算每个提示的相关性图，最后将这些相关性图融合。融合方法可以使用简单的平均或加权平均。

🖼️ 关键图片

📊 实验亮点

VideoGEM在V-HICO、DALY、YouCook-Interactions和GroundingYouTube四个视频定位数据集上进行了评估，结果表明，该方法在无需训练的情况下，优于当前最先进的训练方法。例如，在V-HICO数据集上，VideoGEM的性能提升了X%。实验结果验证了该方法的有效性和泛化能力。

🎯 应用场景

VideoGEM可应用于视频监控、智能安防、人机交互、视频内容分析等领域。例如，在视频监控中，可以自动定位异常行为，提高监控效率。在人机交互中，可以理解用户的动作意图，提供更智能的服务。该研究有助于推动视频理解和人工智能技术的发展。

📄 摘要（原文）

Vision-language foundation models have shown impressive capabilities across various zero-shot tasks, including training-free localization and grounding, primarily focusing on localizing objects in images. However, leveraging those capabilities to localize actions and events in videos is challenging, as actions have less physical outline and are usually described by higher-level concepts. In this work, we propose VideoGEM, the first training-free spatial action grounding method based on pretrained image- and video-language backbones. Namely, we adapt the self-self attention formulation of GEM to spatial activity grounding. We observe that high-level semantic concepts, such as actions, usually emerge in the higher layers of the image- and video-language models. We, therefore, propose a layer weighting in the self-attention path to prioritize higher layers. Additionally, we introduce a dynamic weighting method to automatically tune layer weights to capture each layer`s relevance to a specific prompt. Finally, we introduce a prompt decomposition, processing action, verb, and object prompts separately, resulting in a better spatial localization of actions. We evaluate the proposed approach on three image- and video-language backbones, CLIP, OpenCLIP, and ViCLIP, and on four video grounding datasets, V-HICO, DALY, YouCook-Interactions, and GroundingYouTube, showing that the proposed training-free approach is able to outperform current trained state-of-the-art approaches for spatial video grounding.

VideoGEM: Training-free Action Grounding in Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理