Deforming Videos to Masks: Flow Matching for Referring Video Segmentation

📄 arXiv: 2510.06139 📥 PDF

作者: Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang

分类: cs.CV

发布日期: 2026-02-28


💡 一句话要点

提出FlowRVS框架以解决视频对象分割中的语言引导问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 引用视频对象分割 条件连续流 语言引导 视频理解 细粒度控制 时间一致性 深度学习

📋 核心要点

  1. 现有的引用视频对象分割方法往往采用‘定位-再分割’的管道设计,导致信息瓶颈和时间一致性问题。
  2. 本文提出FlowRVS框架,将RVOS视为条件连续流问题,利用语言引导实现视频分割的直接变形。
  3. 实验结果显示,FlowRVS在MeViS和Ref-DAVIS17基准上均取得了新的最先进成绩,显著提升了性能。

📝 摘要(中文)

引用视频对象分割(RVOS)需要根据自然语言描述在视频中分割特定对象。RVOS的核心挑战在于将抽象的语言概念锚定到特定像素集,并在视频的复杂动态中持续进行分割。以往的方法常常将任务分解为“定位-再分割”的管道设计,但这种级联设计导致信息瓶颈,简化语义为粗糙的几何提示,且难以保持时间一致性。为克服这些限制,本文提出FlowRVS框架,将RVOS重新概念化为条件连续流问题,利用预训练的T2V模型、细粒度像素控制、文本-视频语义对齐和时间一致性。我们的单阶段生成方法在所有主要RVOS基准上实现了新的最先进结果,MeViS上J&F达51.1(比之前的SOTA提升1.6),在零样本Ref-DAVIS17上达73.3(提升2.7),展示了将视频理解任务建模为连续变形过程的巨大潜力。

🔬 方法详解

问题定义:本文旨在解决引用视频对象分割(RVOS)中将语言描述与视频像素对应的难题。现有方法通过级联的‘定位-再分割’方式,导致信息损失和时间一致性不足。

核心思路:FlowRVS框架通过将RVOS重新定义为条件连续流问题,直接从视频的整体表示学习语言引导的变形,避免了传统方法的缺陷。

技术框架:FlowRVS的整体架构包括输入视频的特征提取、语言描述的编码、以及通过条件流模型生成目标掩码的过程。主要模块包括预训练的T2V模型和细粒度的像素控制机制。

关键创新:本文的核心创新在于将视频分割任务视为连续变形过程,利用语言引导的直接变形方法,显著提升了分割的准确性和一致性。

关键设计:在模型设计中,采用了特定的损失函数以优化语言与视频特征的对齐,并通过细粒度控制实现高精度的掩码生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FlowRVS在MeViS基准上取得了51.1的J&F分数,比之前的最先进结果提升了1.6;在零样本Ref-DAVIS17上达到了73.3,提升幅度为2.7,展示了该方法在视频对象分割任务中的显著优势。

🎯 应用场景

该研究在视频理解、自动驾驶、智能监控等领域具有广泛的应用潜力。通过提高视频对象分割的准确性和一致性,FlowRVS能够为实时视频分析和人机交互提供更强大的支持,推动相关技术的发展与应用。

📄 摘要(原文)

Referring Video Object Segmentation (RVOS) requires segmenting specific objects in a video guided by a natural language description. The core challenge of RVOS is to anchor abstract linguistic concepts onto a specific set of pixels and continuously segment them through the complex dynamics of a video. Faced with this difficulty, prior work has often decomposed the task into a pragmatic `locate-then-segment' pipeline. However, this cascaded design creates an information bottleneck by simplifying semantics into coarse geometric prompts (e.g, point), and struggles to maintain temporal consistency as the segmenting process is often decoupled from the initial language grounding. To overcome these fundamental limitations, we propose FlowRVS, a novel framework that reconceptualizes RVOS as a conditional continuous flow problem. This allows us to harness the inherent strengths of pretrained T2V models, fine-grained pixel control, text-video semantic alignment, and temporal coherence. Instead of conventional generating from noise to mask or directly predicting mask, we reformulate the task by learning a direct, language-guided deformation from a video's holistic representation to its target mask. Our one-stage, generative approach achieves new state-of-the-art results across all major RVOS benchmarks. Specifically, achieving a J&F of 51.1 in MeViS (+1.6 over prior SOTA) and 73.3 in the zero shot Ref-DAVIS17 (+2.7), demonstrating the significant potential of modeling video understanding tasks as continuous deformation processes.