Object-centric Video Question Answering with Visual Grounding and Referring

📄 arXiv: 2507.19599v1 📥 PDF

作者: Haochen Wang, Qirui Chen, Cilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie, Stratis Gavves

分类: cs.CV

发布日期: 2025-07-25

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出基于视觉定位和指代的面向对象视频问答VideoLLM模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频问答 视觉定位 对象指代 多模态学习 视频理解

📋 核心要点

  1. 现有VideoLLM模型侧重于高层理解,缺乏对象中心交互和视觉提示的灵活性。
  2. 提出VideoLLM模型,结合空间-时间叠加模块(STOM),支持视觉提示输入和定位输出。
  3. 构建VideoInfer数据集,并在多个基准测试中验证了模型在视频问答和分割任务上的优越性。

📝 摘要(中文)

本文提出了一种VideoLLM模型,旨在解决现有模型在对象中心、多轮交互方面的局限性。该模型能够执行对象指代输入和视频推理任务中的定位输出,允许用户使用文本和视觉提示与视频进行交互。论文提出了空间-时间叠加模块(STOM),用于将任意时间戳的视觉提示传播到视频中的其余帧。此外,还创建了一个人工标注的面向对象的视频指令数据集VideoInfer,其中包含需要推理的问答对。在VideoInfer和其他现有基准测试上的实验结果表明,该模型在视频问答和分割方面始终优于基线模型,突显了其在多模态、面向对象的视频和图像理解方面的鲁棒性。

🔬 方法详解

问题定义:现有VideoLLM模型主要关注高层次的视频理解,缺乏对视频中特定对象的交互能力,并且通常只能生成文本回复,限制了其在需要视觉信息参与的复杂推理任务中的应用。现有方法难以处理用户提供的视觉提示,无法实现基于视觉指代的问答。

核心思路:论文的核心思路是构建一个能够理解和利用视觉提示的VideoLLM模型。通过引入空间-时间叠加模块(STOM),模型可以将用户在某一帧提供的视觉信息(例如,目标对象的mask)传播到整个视频序列,从而实现对视频中特定对象的持续跟踪和理解。这样,模型就可以根据视觉提示进行更精确的问答和推理。

技术框架:该VideoLLM模型包含以下主要模块:1) 视频编码器:用于提取视频帧的视觉特征。2) 文本编码器:用于提取文本问题的语义特征。3) 空间-时间叠加模块(STOM):用于将视觉提示信息传播到整个视频序列。4) 多模态融合模块:将视觉特征、文本特征和视觉提示信息进行融合。5) 解码器:根据融合后的特征生成答案或分割结果。

关键创新:论文的关键创新在于空间-时间叠加模块(STOM)。STOM能够有效地将用户提供的视觉提示信息(例如,目标对象的mask)传播到视频中的所有帧,从而使模型能够更好地理解视频中特定对象的状态和行为。这种方法允许用户以视觉方式引导模型关注视频中的特定区域或对象,从而实现更精确的问答和推理。

关键设计:STOM模块的具体实现细节未知,论文中可能没有详细描述其内部结构和参数设置。损失函数的设计可能包括问答损失和分割损失,以优化模型的问答和分割性能。网络结构的具体细节也未知,但可以推测其可能采用了Transformer或类似的注意力机制来实现多模态信息的融合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该模型在VideoInfer数据集以及其他11个视频问答和分割基准测试中均优于现有基线模型。具体性能提升幅度未知,但论文强调了模型在多模态、面向对象的视频和图像理解方面的鲁棒性。这些结果验证了STOM模块的有效性以及模型在处理视觉提示方面的优势。

🎯 应用场景

该研究成果可应用于智能监控、视频编辑、人机交互等领域。例如,在智能监控中,用户可以通过视觉提示指定需要关注的对象,系统自动跟踪该对象并回答相关问题。在视频编辑中,用户可以通过视觉指代快速定位和编辑视频中的特定对象。在人机交互中,该模型可以实现更自然、更直观的视频交互方式。

📄 摘要(原文)

Video Large Language Models (VideoLLMs) have recently demonstrated remarkable progress in general video understanding. However, existing models primarily focus on high-level comprehension and are limited to text-only responses, restricting the flexibility for object-centric, multiround interactions. In this paper, we make three contributions: (i) we address these limitations by introducing a VideoLLM model, capable of performing both object referring for input and grounding for output in video reasoning tasks, i.e., allowing users to interact with videos using both textual and visual prompts; (ii) we propose STOM (Spatial-Temporal Overlay Module), a novel approach that propagates arbitrary visual prompts input at any single timestamp to the remaining frames within a video; (iii) we present VideoInfer, a manually curated object-centric video instruction dataset featuring questionanswering pairs that require reasoning. We conduct comprehensive experiments on VideoInfer and other existing benchmarks across video question answering and referring object segmentation. The results on 12 benchmarks of 6 tasks show that our proposed model consistently outperforms baselines in both video question answering and segmentation, underscoring its robustness in multimodal, object-centric video and image understanding. Project page: https://qirui-chen.github.io/RGA3-release/.