Deforming Videos to Masks: Flow Matching for Referring Video Segmentation
作者: Zanyi Wang, Dengyang Jiang, Liuzhuozheng Li, Sizhe Dang, Chengzu Li, Harry Yang, Guang Dai, Mengmeng Wang, Jingdong Wang
分类: cs.CV
发布日期: 2025-10-07
💡 一句话要点
提出FlowRVS以解决视频对象分割中的语言引导问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 引用视频对象分割 条件连续流 语言引导 视频理解 细粒度控制 时间一致性 预训练模型
📋 核心要点
- 现有的引用视频对象分割方法存在信息瓶颈,难以保持时间一致性,且常常将语义简化为粗糙的几何提示。
- 本文提出FlowRVS框架,将RVOS视为条件连续流问题,利用语言引导进行视频的整体表示到目标掩膜的直接变形。
- 在主要RVOS基准测试中,FlowRVS实现了新的最先进结果,MeViS上$ ext{J} ext{&} ext{F}$达到51.1,Ref-DAVIS17上达到73.3,分别较之前的最优结果提升1.6和2.7。
📝 摘要(中文)
引用视频对象分割(RVOS)需要根据自然语言描述在视频中分割特定对象。RVOS的核心挑战在于将抽象的语言概念锚定到特定像素,并在视频的复杂动态中持续进行分割。现有方法通常采用“定位-分割”的管道设计,导致信息瓶颈,简化语义为粗糙的几何提示,并在分割过程中难以保持时间一致性。为克服这些限制,本文提出FlowRVS框架,将RVOS重新概念化为条件连续流问题,利用预训练的T2V模型、细粒度像素控制、文本-视频语义对齐和时间一致性。我们的生成方法在所有主要RVOS基准上实现了新的最先进结果。
🔬 方法详解
问题定义:本文旨在解决引用视频对象分割(RVOS)中的语言引导分割问题。现有方法通过“定位-分割”管道设计,导致信息瓶颈和时间一致性问题,无法有效处理复杂视频动态。
核心思路:本文提出FlowRVS框架,将RVOS重新定义为条件连续流问题,允许通过语言引导直接从视频的整体表示生成目标掩膜。这种方法避免了传统的从噪声生成掩膜或直接预测掩膜的方式,增强了语义理解。
技术框架:FlowRVS框架包括多个模块,首先通过预训练的T2V模型进行文本与视频的语义对齐,然后通过细粒度的像素控制实现视频的动态变形,最终生成目标掩膜。
关键创新:本文的主要创新在于将RVOS视为连续变形过程,利用语言引导实现从视频整体到目标掩膜的直接变形,这与传统方法的分离设计形成鲜明对比。
关键设计:在模型设计中,采用了特定的损失函数以确保时间一致性,并通过细粒度的像素控制实现高精度的分割效果。网络结构上,FlowRVS集成了多层次的特征提取模块,以增强对复杂动态的适应能力。
🖼️ 关键图片
📊 实验亮点
FlowRVS在主要RVOS基准测试中表现出色,MeViS上$ ext{J} ext{&} ext{F}$达51.1,较之前的最优结果提升1.6;在零样本Ref-DAVIS17上达到73.3,提升2.7,展示了其在视频理解任务中的显著潜力。
🎯 应用场景
该研究在视频理解领域具有广泛的应用潜力,特别是在自动视频编辑、智能监控和人机交互等场景中。通过更准确的对象分割,能够提升视频内容分析的效率和准确性,推动相关技术的发展。
📄 摘要(原文)
Referring Video Object Segmentation (RVOS) requires segmenting specific objects in a video guided by a natural language description. The core challenge of RVOS is to anchor abstract linguistic concepts onto a specific set of pixels and continuously segment them through the complex dynamics of a video. Faced with this difficulty, prior work has often decomposed the task into a pragmatic `locate-then-segment' pipeline. However, this cascaded design creates an information bottleneck by simplifying semantics into coarse geometric prompts (e.g, point), and struggles to maintain temporal consistency as the segmenting process is often decoupled from the initial language grounding. To overcome these fundamental limitations, we propose FlowRVS, a novel framework that reconceptualizes RVOS as a conditional continuous flow problem. This allows us to harness the inherent strengths of pretrained T2V models, fine-grained pixel control, text-video semantic alignment, and temporal coherence. Instead of conventional generating from noise to mask or directly predicting mask, we reformulate the task by learning a direct, language-guided deformation from a video's holistic representation to its target mask. Our one-stage, generative approach achieves new state-of-the-art results across all major RVOS benchmarks. Specifically, achieving a $\mathcal{J}\&\mathcal{F}$ of 51.1 in MeViS (+1.6 over prior SOTA) and 73.3 in the zero shot Ref-DAVIS17 (+2.7), demonstrating the significant potential of modeling video understanding tasks as continuous deformation processes.