GMOS: Grounding Moving Object Segmentation in 3D Space and Time
作者: Junyu Xie, Tengda Han, Weidi Xie, Andrew Zisserman
分类: cs.CV
发布日期: 2026-05-28
备注: Project Page: https://www.robots.ox.ac.uk/vgg/research/gmos/
💡 一句话要点
提出GMOS框架以解决移动物体分割中的3D信息缺失问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 移动物体分割 3D感知 时间细粒度 视频分析 在线推理 数据集构建 深度学习
📋 核心要点
- 现有的移动物体分割方法依赖于缺乏3D几何信息的2D辅助模态,且未能捕捉物体的瞬时运动状态。
- GMOS框架通过直接在RGB视频上进行操作,实现了3D感知和时间细粒度的多移动物体分割。
- GMOS在多个基准测试中取得了最先进的结果,并且运行速度显著快于之前的方法,支持在线推理。
📝 摘要(中文)
移动物体分割(MOS)旨在发现、分割和跟踪独立于相机移动的物体。然而,现有的MOS方法存在两个基本局限:依赖于缺乏3D几何信息的预计算2D辅助模态,如光流或点轨迹,并将运动视为序列级属性,忽视了每个物体的瞬时运动状态。为了解决这些问题,本文提出了GMOS框架,直接在RGB视频上操作,生成具有3D感知和时间细粒度的多移动物体分割,同时推出了用于快速部署的前景-背景变体GMOS-S。为支持该领域的训练和评估,我们整理了GMOS-2K数据集,包含2210个真实世界视频及每个物体的时间运动注释,并正式定义了MOS-I(“I”代表瞬时),一个具有三种互补指标的时间细粒度评估协议。GMOS在MOS、MOS-I和无监督VOS基准上实现了最先进的结果,同时运行速度显著快于之前的多物体MOS方法,并支持流媒体部署的在线推理。
🔬 方法详解
问题定义:本文旨在解决移动物体分割中缺乏3D几何信息和瞬时运动状态捕捉的问题。现有方法依赖于预计算的2D模态,无法有效处理复杂的运动场景。
核心思路:GMOS框架通过直接在RGB视频上进行操作,结合3D空间和时间信息,提供了更为精确的物体分割和跟踪能力。此设计使得模型能够实时捕捉物体的瞬时运动状态。
技术框架:GMOS的整体架构包括多个模块,首先通过RGB视频输入进行特征提取,然后利用3D空间信息进行物体分割,最后通过时间细粒度分析实现精确跟踪。GMOS-S作为变体,优化了前景与背景的分割过程,以提高处理速度。
关键创新:GMOS的主要创新在于将移动物体分割与3D空间和时间信息结合,突破了传统方法的局限,能够实时处理复杂场景中的多个移动物体。
关键设计:在模型设计中,采用了特定的损失函数来优化分割精度,并在网络结构上进行了调整,以支持高效的在线推理和快速部署。
🖼️ 关键图片
📊 实验亮点
GMOS在多个基准测试中表现出色,尤其在MOS、MOS-I和无监督VOS任务上均取得了最先进的结果。与之前的多物体MOS方法相比,GMOS的运行速度显著提升,支持在线推理,展示了其在实际应用中的优势。
🎯 应用场景
GMOS框架在视频监控、自动驾驶、机器人导航等领域具有广泛的应用潜力。其高效的移动物体分割能力能够提升实时监控系统的智能化水平,并为复杂场景下的物体跟踪提供支持,具有重要的实际价值和未来影响。
📄 摘要(原文)
Moving Object Segmentation (MOS) aims to discover, segment, and track objects that move independently of the camera. Current MOS methods, however, exhibit two fundamental limitations: they rely on pre-computed 2D auxiliary modalities such as optical flow or point trajectories that lack 3D geometric information, and they treat motion as a sequence-level attribute, overlooking the instantaneous motion state of each object. We address both by grounding MOS in 3D space and time, and propose GMOS, a framework that operates directly on RGB video to produce 3D-aware, temporally fine-grained segmentation of multiple moving objects, alongside a foreground--background variant GMOS-S for faster deployment. To support training and evaluation in this regime, we curate GMOS-2K, a dataset of 2,210 real-world videos with per-object temporal motion annotations drawn from five established Video Object Segmentation (VOS) benchmarks, and formalise MOS-I ("I" for instantaneous), a temporally fine-grained evaluation protocol with three complementary metrics. GMOS achieves state-of-the-art results across MOS, MOS-I, and Unsupervised VOS benchmarks, while running significantly faster than prior multi-object MOS methods and supporting online inference for streaming deployment.