GMOS: Grounding Moving Object Segmentation in 3D Space and Time

作者: Junyu Xie, Tengda Han, Weidi Xie, Andrew Zisserman

分类: cs.CV

发布日期: 2026-05-28

备注: Project Page: https://www.robots.ox.ac.uk/vgg/research/gmos/

💡 一句话要点

提出GMOS框架以解决移动物体分割中的3D信息缺失问题

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 移动物体分割 3D感知 时间细粒度 视频分析 在线推理 数据集构建 深度学习

📋 核心要点

现有的移动物体分割方法依赖于缺乏3D几何信息的2D辅助模态，且未能捕捉物体的瞬时运动状态。
GMOS框架通过直接在RGB视频上进行操作，实现了3D感知和时间细粒度的多移动物体分割。
GMOS在多个基准测试中取得了最先进的结果，并且运行速度显著快于之前的方法，支持在线推理。

📝 摘要（中文）

移动物体分割（MOS）旨在发现、分割和跟踪独立于相机移动的物体。然而，现有的MOS方法存在两个基本局限：依赖于缺乏3D几何信息的预计算2D辅助模态，如光流或点轨迹，并将运动视为序列级属性，忽视了每个物体的瞬时运动状态。为了解决这些问题，本文提出了GMOS框架，直接在RGB视频上操作，生成具有3D感知和时间细粒度的多移动物体分割，同时推出了用于快速部署的前景-背景变体GMOS-S。为支持该领域的训练和评估，我们整理了GMOS-2K数据集，包含2210个真实世界视频及每个物体的时间运动注释，并正式定义了MOS-I（“I”代表瞬时），一个具有三种互补指标的时间细粒度评估协议。GMOS在MOS、MOS-I和无监督VOS基准上实现了最先进的结果，同时运行速度显著快于之前的多物体MOS方法，并支持流媒体部署的在线推理。

🔬 方法详解

问题定义：本文旨在解决移动物体分割中缺乏3D几何信息和瞬时运动状态捕捉的问题。现有方法依赖于预计算的2D模态，无法有效处理复杂的运动场景。

核心思路：GMOS框架通过直接在RGB视频上进行操作，结合3D空间和时间信息，提供了更为精确的物体分割和跟踪能力。此设计使得模型能够实时捕捉物体的瞬时运动状态。

技术框架：GMOS的整体架构包括多个模块，首先通过RGB视频输入进行特征提取，然后利用3D空间信息进行物体分割，最后通过时间细粒度分析实现精确跟踪。GMOS-S作为变体，优化了前景与背景的分割过程，以提高处理速度。

关键创新：GMOS的主要创新在于将移动物体分割与3D空间和时间信息结合，突破了传统方法的局限，能够实时处理复杂场景中的多个移动物体。

关键设计：在模型设计中，采用了特定的损失函数来优化分割精度，并在网络结构上进行了调整，以支持高效的在线推理和快速部署。

🖼️ 关键图片

📊 实验亮点

GMOS在多个基准测试中表现出色，尤其在MOS、MOS-I和无监督VOS任务上均取得了最先进的结果。与之前的多物体MOS方法相比，GMOS的运行速度显著提升，支持在线推理，展示了其在实际应用中的优势。

🎯 应用场景

GMOS框架在视频监控、自动驾驶、机器人导航等领域具有广泛的应用潜力。其高效的移动物体分割能力能够提升实时监控系统的智能化水平，并为复杂场景下的物体跟踪提供支持，具有重要的实际价值和未来影响。

📄 摘要（原文）

Moving Object Segmentation (MOS) aims to discover, segment, and track objects that move independently of the camera. Current MOS methods, however, exhibit two fundamental limitations: they rely on pre-computed 2D auxiliary modalities such as optical flow or point trajectories that lack 3D geometric information, and they treat motion as a sequence-level attribute, overlooking the instantaneous motion state of each object. We address both by grounding MOS in 3D space and time, and propose GMOS, a framework that operates directly on RGB video to produce 3D-aware, temporally fine-grained segmentation of multiple moving objects, alongside a foreground--background variant GMOS-S for faster deployment. To support training and evaluation in this regime, we curate GMOS-2K, a dataset of 2,210 real-world videos with per-object temporal motion annotations drawn from five established Video Object Segmentation (VOS) benchmarks, and formalise MOS-I ("I" for instantaneous), a temporally fine-grained evaluation protocol with three complementary metrics. GMOS achieves state-of-the-art results across MOS, MOS-I, and Unsupervised VOS benchmarks, while running significantly faster than prior multi-object MOS methods and supporting online inference for streaming deployment.

GMOS: Grounding Moving Object Segmentation in 3D Space and Time

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理