Weakly-Supervised Referring Video Object Segmentation through Text Supervision

📄 arXiv: 2604.17797v1 📥 PDF

作者: Miaojing Shi, Jun Huang, Zijie Yue, Hanli Wang

分类: cs.CV

发布日期: 2026-04-20

备注: Accepted by CVPR 2026 Findings

🔗 代码/项目: GITHUB


💡 一句话要点

提出WSRVOS,仅用文本监督实现指代表达式引导的视频对象分割。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指代视频对象分割 弱监督学习 文本监督 多模态融合 对比学习 伪标签 时间一致性

📋 核心要点

  1. 现有指代视频对象分割方法依赖像素级标注,成本高昂,而基于边界框或点的弱监督方法仍然需要大量人工标注。
  2. 本文提出WSRVOS,仅使用文本表达式进行训练,通过对比表达式增强、视觉-语言特征选择和交互等模块实现。
  3. 在A2D Sentences、J-HMDB Sentences、Ref-YouTube-VOS和Ref-DAVIS17四个数据集上的实验表明,该方法具有优越性。

📝 摘要(中文)

本文提出了一种新颖的弱监督指代视频对象分割(WSRVOS)方法,该方法仅使用文本表达式来训练模型。针对输入视频和指代表达式,我们首先设计了一种对比指代表达式增强方案,利用多模态大型语言模型的描述能力来生成正负表达式。然后,我们提取视频和表达式的视觉和语言特征,并执行双向视觉-语言特征选择和交互,以实现细粒度的多模态对齐。接下来,我们提出了一种实例感知的表达式分类方案,以优化模型区分正负表达式的能力。此外,我们引入了一种正预测融合策略来生成高质量的伪掩码,作为模型的额外监督。最后,我们设计了一个时间片段排序约束,要求时间相邻帧的掩码预测之间的重叠符合特定的顺序。在四个公开的RVOS数据集上的大量实验表明了我们方法的优越性。

🔬 方法详解

问题定义:指代视频对象分割(RVOS)旨在分割视频中由文本表达式指代的特定对象。现有方法主要依赖于像素级别的掩码标注,这需要大量的人工成本。即使是弱监督方法,例如使用边界框或点标注,仍然需要一定程度的人工干预,限制了其应用范围。因此,如何仅使用文本描述作为监督信号来训练RVOS模型是一个重要的挑战。

核心思路:本文的核心思路是利用多模态大型语言模型(MLLM)的captioning能力,从给定的文本描述生成正负样本,并设计相应的损失函数来训练模型区分这些样本。通过这种方式,模型可以学习到文本描述和视频内容之间的对应关系,从而实现仅使用文本监督的RVOS。此外,还利用伪标签和时间一致性约束来进一步提升分割性能。

技术框架:WSRVOS的整体框架包括以下几个主要模块:1) 对比指代表达式增强:利用MLLM生成正负文本描述。2) 视觉-语言特征提取与交互:提取视频帧和文本描述的视觉和语言特征,并进行双向特征选择和交互,以实现细粒度的多模态对齐。3) 实例感知的表达式分类:设计分类器区分正负表达式,优化模型。4) 正预测融合:生成高质量的伪掩码,作为额外的监督信号。5) 时间片段排序约束:强制相邻帧的分割结果具有时间一致性。

关键创新:该方法最重要的创新点在于完全摆脱了对像素级、边界框或点标注的依赖,仅使用文本描述作为监督信号来训练RVOS模型。这种方法极大地降低了标注成本,并提高了模型的可扩展性。此外,利用MLLM进行数据增强和生成伪标签也是一种有效的弱监督学习策略。

关键设计:在对比指代表达式增强中,使用了特定的prompt来引导MLLM生成高质量的正负样本。在视觉-语言特征交互中,采用了双向注意力机制来更好地对齐视觉和语言特征。在实例感知的表达式分类中,使用了交叉熵损失函数来优化分类器。在正预测融合中,采用了阈值分割和形态学操作来生成高质量的伪掩码。在时间片段排序约束中,设计了特定的损失函数来强制相邻帧的分割结果具有时间一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,WSRVOS在四个公开数据集上均取得了显著的性能提升。例如,在Ref-YouTube-VOS数据集上,相较于之前的弱监督方法,WSRVOS在J&F指标上取得了超过5%的提升,证明了其有效性。

🎯 应用场景

该研究成果可应用于智能视频监控、视频内容分析、人机交互等领域。例如,在智能监控中,可以通过文本描述快速定位和分割视频中的特定对象。在视频内容分析中,可以根据文本描述自动提取视频中的关键信息。在人机交互中,可以通过语音或文本指令引导机器人完成特定的视觉任务。该研究为实现更智能、更高效的视频理解和处理提供了新的思路。

📄 摘要(原文)

Referring video object segmentation (RVOS) aims to segment the target instance in a video, referred by a text expression. Conventional approaches are mostly supervised learning, requiring expensive pixel-level mask annotations. To tackle it, weakly-supervised RVOS has recently been proposed to replace mask annotations with bounding boxes or points, which are however still costly and labor-intensive. In this paper, we design a novel weakly-supervised RVOS method, namely WSRVOS, to train the model with only text expressions. Given an input video and the referring expression, we first design a contrastive referring expression augmentation scheme that leverages the captioning capabilities of a multimodal large language model to generate both positive and negative expressions. We extract visual and linguistic features from the input video and generated expressions, then perform bi-directional vision-language feature selection and interaction to enable fine-grained multimodal alignment. Next, we propose an instance-aware expression classification scheme to optimize the model in distinguishing positive from negative expressions. Also, we introduce a positive-prediction fusion strategy to generate high-quality pseudo-masks, which serve as additional supervision to the model. Last, we design a temporal segment ranking constraint such that the overlaps between mask predictions of temporally neighboring frames are required to conform to specific orders. Extensive experiments on four publicly available RVOS datasets, including A2D Sentences, J-HMDB Sentences, Ref-YouTube-VOS, and Ref-DAVIS17, demonstrate the superiority of our method. Code is available at \href{https://github.com/viscom-tongji/WSRVOS}{https://github.com/viscom-tongji/WSRVOS}.