DeVOS: Flow-Guided Deformable Transformer for Video Object Segmentation

📄 arXiv: 2405.08715v1 📥 PDF

作者: Volodymyr Fedynyak, Yaroslav Romanus, Bohdan Hlovatskyi, Bohdan Sydor, Oles Dobosevych, Igor Babin, Roman Riazantsev

分类: cs.CV

发布日期: 2024-05-11


💡 一句话要点

DeVOS:基于光流引导的可变形Transformer用于视频目标分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 视频目标分割 可变形Transformer 光流引导 时间一致性 注意力机制

📋 核心要点

  1. 现有视频目标分割方法依赖于帧间密集特征匹配,但忽略了场景运动信息,导致时间一致性不足。
  2. DeVOS结合了基于记忆的匹配和运动引导的传播,利用光流信息指导可变形注意力,提升分割的稳定性和时间一致性。
  3. DeVOS在DAVIS和YouTube-VOS数据集上取得了领先性能,验证了其在长期建模和复杂形变跟踪方面的有效性。

📝 摘要(中文)

本文提出DeVOS(Deformable VOS),一种用于视频目标分割的架构,它结合了基于记忆的匹配和运动引导的传播,从而实现稳定的长期建模和强大的时间一致性。针对短期的局部传播,我们提出了一种新的注意力机制ADVA(Adaptive Deformable Video Attention),允许相似性搜索区域适应于特定查询的语义特征,从而确保对复杂形状和尺度变化的鲁棒跟踪。DeVOS利用光流来获取场景运动特征,这些特征进一步作为可学习偏移的强先验注入到可变形注意力中。我们的方法在DAVIS 2017 val和test-dev(88.1%,83.0%),YouTube-VOS 2019 val(86.6%)上实现了顶级的性能,同时具有一致的运行速度和稳定的内存消耗。

🔬 方法详解

问题定义:视频目标分割旨在对视频中特定目标进行像素级别的分割。现有方法在处理长时间序列和复杂形变时,容易出现时间一致性问题,即分割结果在相邻帧之间不连贯。现有方法要么忽略了场景的运动信息,要么在局部窗口内进行匹配,无法有效应对目标外观的剧烈变化。

核心思路:DeVOS的核心在于将全局的基于记忆的匹配与局部的运动引导传播相结合。全局匹配负责建立长期依赖,而运动引导传播则利用光流信息来预测目标的运动轨迹,从而指导局部特征匹配,提高时间一致性。

技术框架:DeVOS的整体架构包含以下几个主要模块:1) 特征提取模块:提取视频帧的语义和实例级别的特征。2) 基于记忆的匹配模块:利用先前帧的信息进行全局特征匹配。3) 运动估计模块:使用光流估计场景的运动信息。4) ADVA模块:将光流信息注入到可变形注意力中,进行局部特征匹配和传播。5) 分割模块:根据匹配结果生成最终的分割掩码。

关键创新:ADVA(Adaptive Deformable Video Attention)是DeVOS的关键创新点。它是一种自适应的可变形注意力机制,能够根据查询特征动态地调整采样位置,从而更好地适应目标的形状和尺度变化。与传统的局部窗口匹配相比,ADVA能够更灵活地捕捉目标的运动轨迹,提高分割的鲁棒性。

关键设计:DeVOS使用光流作为可变形注意力的先验信息,引导采样点的偏移学习。具体来说,光流信息被用来初始化可变形注意力的偏移量,从而使得采样点能够更准确地落在目标区域。此外,DeVOS还采用了多层特征融合和损失函数加权等技术,进一步提升了分割性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DeVOS在DAVIS 2017 val和test-dev数据集上分别取得了88.1%和83.0%的性能,在YouTube-VOS 2019 val数据集上取得了86.6%的性能,均达到了当时的领先水平。实验结果表明,DeVOS在处理长时间序列和复杂形变时具有显著优势,能够有效提高视频目标分割的准确性和时间一致性。

🎯 应用场景

DeVOS在视频监控、自动驾驶、视频编辑等领域具有广泛的应用前景。例如,在自动驾驶中,可以利用DeVOS对车辆、行人等目标进行精确分割,提高环境感知能力。在视频编辑中,可以利用DeVOS对视频中的特定对象进行抠图、替换等操作,实现更高级的编辑效果。

📄 摘要(原文)

The recent works on Video Object Segmentation achieved remarkable results by matching dense semantic and instance-level features between the current and previous frames for long-time propagation. Nevertheless, global feature matching ignores scene motion context, failing to satisfy temporal consistency. Even though some methods introduce local matching branch to achieve smooth propagation, they fail to model complex appearance changes due to the constraints of the local window. In this paper, we present DeVOS (Deformable VOS), an architecture for Video Object Segmentation that combines memory-based matching with motion-guided propagation resulting in stable long-term modeling and strong temporal consistency. For short-term local propagation, we propose a novel attention mechanism ADVA (Adaptive Deformable Video Attention), allowing the adaption of similarity search region to query-specific semantic features, which ensures robust tracking of complex shape and scale changes. DeVOS employs an optical flow to obtain scene motion features which are further injected to deformable attention as strong priors to learnable offsets. Our method achieves top-rank performance on DAVIS 2017 val and test-dev (88.1%, 83.0%), YouTube-VOS 2019 val (86.6%) while featuring consistent run-time speed and stable memory consumption