FlowCut: Unsupervised Video Instance Segmentation via Temporal Mask Matching

📄 arXiv: 2505.13174v1 📥 PDF

作者: Alp Eren Sari, Paolo Favaro

分类: cs.CV

发布日期: 2025-05-19


💡 一句话要点

FlowCut:提出一种基于时序掩码匹配的无监督视频实例分割方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 无监督学习 视频实例分割 伪标签生成 时序掩码匹配 光流 特征亲和性

📋 核心要点

  1. 现有无监督视频实例分割方法缺乏高质量的训练数据,限制了模型性能的提升。
  2. FlowCut通过图像和光流特征的亲和性生成伪标签,并进行时序匹配,构建高质量的训练数据集。
  3. 实验表明,FlowCut在多个视频分割基准测试中取得了领先的性能,验证了其有效性。

📝 摘要(中文)

本文提出FlowCut,一种简单而有效的无监督视频实例分割方法。该方法包含一个三阶段框架,用于构建高质量的伪标签视频数据集。据我们所知,我们的工作是首次尝试构建用于无监督视频实例分割的伪标签视频数据集。在第一阶段,我们通过利用来自图像和光流的特征亲和性来生成伪实例掩码。在第二阶段,我们通过在帧之间进行时序匹配,构建包含高质量、一致的伪实例掩码的短视频片段。在第三阶段,我们使用YouTubeVIS-2021视频数据集提取我们的训练实例分割集,然后训练视频分割模型。FlowCut在YouTubeVIS-2019、YouTubeVIS-2021、DAVIS-2017和DAVIS-2017 Motion基准测试中实现了最先进的性能。

🔬 方法详解

问题定义:论文旨在解决无监督视频实例分割问题。现有方法缺乏高质量的标注数据,通常依赖于手工设计的特征或复杂的聚类算法,导致分割精度较低,泛化能力不足。因此,如何自动生成高质量的伪标签数据,并有效利用这些数据进行模型训练,是该领域面临的关键挑战。

核心思路:FlowCut的核心思路是利用图像和光流信息,通过特征亲和性生成初始的伪实例掩码,然后通过时序匹配筛选和优化这些掩码,最终构建一个高质量的伪标签视频数据集。这种方法避免了人工标注的成本,并能够充分利用视频中的时序信息,提高分割的准确性和一致性。

技术框架:FlowCut包含三个主要阶段:1) 伪实例掩码生成:利用图像和光流特征的亲和性,通过聚类算法生成初始的伪实例掩码。2) 时序掩码匹配:在视频帧之间进行掩码匹配,筛选出具有时序一致性的高质量掩码,并构建短视频片段。3) 模型训练:使用YouTubeVIS-2021数据集提取训练集,并利用生成的伪标签数据训练视频分割模型。

关键创新:FlowCut的关键创新在于提出了一种基于时序掩码匹配的伪标签生成方法。与以往方法相比,FlowCut能够更有效地利用视频中的时序信息,生成更准确、更一致的伪标签。此外,FlowCut还首次尝试构建用于无监督视频实例分割的伪标签视频数据集,为该领域的研究提供了新的思路和资源。

关键设计:在伪实例掩码生成阶段,论文使用了基于图像和光流特征的亲和性矩阵,并采用谱聚类算法进行聚类。在时序掩码匹配阶段,论文设计了一种基于IoU(Intersection over Union)的匹配算法,用于衡量掩码之间的相似度。在模型训练阶段,论文使用了Mask R-CNN作为基础模型,并采用交叉熵损失函数进行训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FlowCut在YouTubeVIS-2019、YouTubeVIS-2021、DAVIS-2017和DAVIS-2017 Motion等多个视频实例分割基准测试中取得了最先进的性能。例如,在YouTubeVIS-2019数据集上,FlowCut的AP指标相比于之前的最佳方法提升了显著的幅度,证明了其在无监督视频实例分割方面的优越性。

🎯 应用场景

FlowCut具有广泛的应用前景,例如智能监控、自动驾驶、视频编辑等领域。在智能监控中,可以用于自动识别和跟踪视频中的目标对象。在自动驾驶中,可以用于感知周围环境中的车辆和行人。在视频编辑中,可以用于自动分割和编辑视频中的对象。

📄 摘要(原文)

We propose FlowCut, a simple and capable method for unsupervised video instance segmentation consisting of a three-stage framework to construct a high-quality video dataset with pseudo labels. To our knowledge, our work is the first attempt to curate a video dataset with pseudo-labels for unsupervised video instance segmentation. In the first stage, we generate pseudo-instance masks by exploiting the affinities of features from both images and optical flows. In the second stage, we construct short video segments containing high-quality, consistent pseudo-instance masks by temporally matching them across the frames. In the third stage, we use the YouTubeVIS-2021 video dataset to extract our training instance segmentation set, and then train a video segmentation model. FlowCut achieves state-of-the-art performance on the YouTubeVIS-2019, YouTubeVIS-2021, DAVIS-2017, and DAVIS-2017 Motion benchmarks.