Open-Vocabulary Action Localization with Iterative Visual Prompting
作者: Naoki Wake, Atsushi Kanehira, Kazuhiro Sasabuchi, Jun Takamatsu, Katsushi Ikeuchi
分类: cs.CV, cs.AI, cs.RO
发布日期: 2024-08-30 (更新: 2025-04-07)
备注: 9 pages, 5 figures, 6 tables. Published in IEEE Access. Last updated on April 7th, 2025
DOI: 10.1109/ACCESS.2025.3555167
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出基于迭代视觉提示的开放词汇动作定位方法,无需训练即可实现视频动作定位。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频动作定位 开放词汇 视觉语言模型 迭代视觉提示 零样本学习
📋 核心要点
- 现有视频动作定位方法依赖大量标注数据,成本高昂,限制了其在实际场景中的应用。
- 该论文提出一种基于迭代视觉提示的开放词汇动作定位方法,利用预训练VLM的强大能力,无需训练。
- 实验结果表明,该方法在零样本动作定位任务上取得了与SOTA方法相当的性能,验证了VLM在视频理解中的潜力。
📝 摘要(中文)
视频动作定位旨在从长视频中找到特定动作的发生时间。现有的基于学习的方法虽然取得了成功,但需要标注视频,这带来了相当大的人工成本。本文提出了一种基于新兴的现成视觉-语言模型(VLM)的、无需训练的开放词汇方法。挑战在于,VLM并非设计用于处理长视频,也未针对查找动作进行定制。我们通过扩展迭代视觉提示技术来克服这些问题。具体来说,我们对视频帧进行采样,并创建一个带有帧索引标签的连接图像,从而使VLM能够识别最有可能对应于动作开始和结束的帧。通过迭代地缩小所选帧周围的采样窗口,估计逐渐收敛到更精确的时间边界。我们证明了该技术产生了合理的结果,实现了与最先进的零样本动作定位相当的性能。这些结果支持使用VLM作为理解视频的实用工具。示例代码可在https://microsoft.github.com/VLM-Video-Action-Localization/ 获得。
🔬 方法详解
问题定义:视频动作定位旨在确定长视频中特定动作的时间范围。现有方法通常需要大量的标注视频数据进行训练,这既耗时又昂贵,限制了它们在开放词汇场景中的应用。此外,现有的视觉-语言模型(VLM)通常不直接适用于处理长视频和定位动作。
核心思路:该论文的核心思路是利用预训练的视觉-语言模型(VLM)的强大视觉理解能力,通过迭代视觉提示的方式,逐步缩小动作发生的时间范围。通过将视频帧和帧索引信息编码成视觉提示,引导VLM关注与目标动作相关的帧,从而实现无需训练的动作定位。
技术框架:该方法主要包含以下几个阶段:1) 视频帧采样:从长视频中均匀或策略性地采样视频帧。2) 视觉提示构建:将采样的视频帧与对应的帧索引标签拼接成一个图像,作为VLM的输入提示。3) VLM推理:使用VLM对视觉提示进行推理,得到每个帧与目标动作的相关性得分。4) 迭代优化:根据VLM的输出,选择相关性最高的帧,并缩小采样窗口,重复上述过程,直到时间边界收敛。
关键创新:该方法最重要的创新点在于将迭代视觉提示技术应用于开放词汇的视频动作定位任务。通过迭代地利用VLM的视觉理解能力,逐步精确地定位动作的时间边界,而无需任何训练数据。这种方法充分利用了预训练VLM的知识,降低了对标注数据的依赖。
关键设计:关键设计包括:1) 帧采样策略:如何选择具有代表性的帧,以减少计算量并提高定位精度。2) 视觉提示的构建方式:如何将帧索引信息有效地编码到视觉提示中,以便VLM能够理解时间信息。3) 迭代停止条件:如何判断时间边界已经收敛,以避免不必要的计算。
🖼️ 关键图片
📊 实验亮点
该论文提出了一种无需训练的开放词汇动作定位方法,在零样本设置下取得了与最先进的零样本动作定位方法相当的性能。这表明,预训练的视觉-语言模型具有强大的视频理解能力,可以通过适当的提示工程,有效地应用于视频动作定位任务。
🎯 应用场景
该研究成果可应用于智能视频监控、视频内容检索、人机交互等领域。例如,在智能监控中,可以自动检测异常行为;在视频检索中,可以根据用户输入的文本描述快速定位相关视频片段;在人机交互中,可以理解用户的动作指令,实现更自然的人机交互。
📄 摘要(原文)
Video action localization aims to find the timings of specific actions from a long video. Although existing learning-based approaches have been successful, they require annotating videos, which comes with a considerable labor cost. This paper proposes a training-free, open-vocabulary approach based on emerging off-the-shelf vision-language models (VLMs). The challenge stems from the fact that VLMs are neither designed to process long videos nor tailored for finding actions. We overcome these problems by extending an iterative visual prompting technique. Specifically, we sample video frames and create a concatenated image with frame index labels, allowing a VLM to identify the frames that most likely correspond to the start and end of the action. By iteratively narrowing the sampling window around the selected frames, the estimation gradually converges to more precise temporal boundaries. We demonstrate that this technique yields reasonable performance, achieving results comparable to state-of-the-art zero-shot action localization. These results support the use of VLMs as a practical tool for understanding videos. Sample code is available at https://microsoft.github.io/VLM-Video-Action-Localization/