OmniGround: A Comprehensive Spatio-Temporal Grounding Benchmark for Real-World Complex Scenarios

📄 arXiv: 2511.16937v1 📥 PDF

作者: Hong Gao, Jingyu Wu, Xiangkai Xu, Kangni Xie, Yunchen Zhang, Bin Zhong, Xurui Gao, Min-Ling Zhang

分类: cs.CV, cs.AI

发布日期: 2025-11-21

备注: 20 pages


💡 一句话要点

OmniGround:提出一个面向真实复杂场景的时空定位综合基准。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 时空视频定位 多模态学习 基准数据集 目标跟踪 视频理解

📋 核心要点

  1. 现有STVG基准数据集范围有限,导致模型在真实复杂场景中表现出类别偏差和推理能力不足。
  2. OmniGround通过构建包含更多类别和复杂查询的综合基准,并结合多向跟踪和智能纠错的标注流程,提升数据质量。
  3. 提出的PG-TAF框架将STVG分解为时间定位和时空传播两个阶段,在OmniGround上显著提升了定位性能。

📝 摘要(中文)

时空视频定位(STVG)旨在根据自然语言描述在视频中定位目标对象。尽管多模态大型语言模型取得了最新进展,但当前模型与涉及多样化对象和复杂查询的实际需求之间仍然存在显著差距。这归因于有限的基准范围,导致模型表现出类别偏差、过度简化的推理和较差的语言鲁棒性。为了解决这些限制,我们引入了OmniGround,这是一个包含3,475个视频,涵盖81个类别和复杂真实世界查询的综合基准。我们提出了前向-后向-细化标注流程,该流程结合了多向跟踪和智能错误纠正,以实现高质量的标签。我们进一步引入了DeepSTG,这是一个系统评估框架,用于量化跨越四个互补维度的数据集质量,超越了表面统计。评估显示,在复杂的真实世界场景中,性能平均下降10.4%,尤其是在小/遮挡对象和复杂的空间关系中。受此启发,我们提出了PG-TAF,一个无需训练的两阶段框架,将STVG分解为高层时间定位和细粒度时空传播。实验表明,PG-TAF在OmniGround上实现了m_tIoU和m_vIoU分别提升25.6%和35.6%,并在四个基准测试中取得了持续的收益。

🔬 方法详解

问题定义:论文旨在解决现有STVG模型在真实复杂场景下,由于数据集的局限性导致的性能下降问题。现有方法在类别多样性、场景复杂度和语言表达的鲁棒性方面存在不足,无法满足实际应用的需求。

核心思路:论文的核心思路是通过构建一个更全面、更具挑战性的基准数据集OmniGround,来推动STVG模型的发展。同时,提出了一个无需训练的两阶段框架PG-TAF,将复杂的STVG任务分解为更容易处理的子任务。

技术框架:PG-TAF框架包含两个主要阶段:1) 高层时间定位:利用语言描述在视频中找到包含目标对象的时间片段;2) 细粒度时空传播:在时间片段内,精确定位目标对象在每一帧中的位置。该框架无需训练,可以直接应用于各种STVG模型。

关键创新:PG-TAF的关键创新在于其两阶段分解策略,将复杂的STVG任务分解为时间定位和时空传播两个相对独立的子任务。这种分解方式降低了任务的难度,使得模型更容易学习和推理。此外,PG-TAF是无需训练的,可以直接应用于各种现有的STVG模型,具有很强的通用性。

关键设计:论文中没有详细描述PG-TAF框架的具体参数设置、损失函数或网络结构,因为该框架是训练无关的。时间定位和时空传播的具体实现可以采用现有的各种方法。OmniGround数据集的构建采用了前向-后向-细化标注流程,确保了标注的质量和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在OmniGround数据集上,现有STVG模型的性能平均下降10.4%,表明该数据集具有很高的挑战性。提出的PG-TAF框架在OmniGround上实现了m_tIoU和m_vIoU分别提升25.6%和35.6%,并在其他四个基准测试中取得了持续的收益,证明了其有效性和通用性。

🎯 应用场景

OmniGround数据集和PG-TAF框架可广泛应用于视频监控、智能安防、人机交互、自动驾驶等领域。通过提升模型在复杂场景下的时空定位能力,可以实现更精准的目标跟踪、行为识别和事件理解,从而提高相关应用的智能化水平和实用价值。

📄 摘要(原文)

Spatio-Temporal Video Grounding (STVG) aims to localize target objects in videos based on natural language descriptions. Despite recent advances in Multimodal Large Language Models, a significant gap remains between current models and real-world demands involving diverse objects and complex queries. We attribute this to limited benchmark scope, causing models to exhibit category bias, oversimplified reasoning, and poor linguistic robustness. To address these limitations, we introduce OmniGround, a comprehensive benchmark with 3,475 videos spanning 81 categories and complex real-world queries. We propose the Forward-Backward-Refinement annotation pipeline that combines multi-directional tracking with intelligent error correction for high-quality labels. We further introduce DeepSTG, a systematic evaluation framework quantifying dataset quality across four complementary dimensions beyond superficial statistics. Evaluations reveal performance average drop of 10.4% on complex real-world scenes, particularly with small/occluded objects and intricate spatial relations. Motivated by these, we propose PG-TAF, a training-free two-stage framework decomposing STVG into high-level temporal grounding and fine-grained spatio-temporal propagation. Experiments demonstrate PG-TAF achieves 25.6% and 35.6% improvements in m_tIoU and m_vIoU on OmniGround with consistent gains across four benchmarks.