ReferDINO: Referring Video Object Segmentation with Visual Grounding Foundations
作者: Tianming Liang, Kun-Yu Lin, Chaolei Tan, Jianguo Zhang, Wei-Shi Zheng, Jian-Fang Hu
分类: cs.CV
发布日期: 2025-01-24 (更新: 2025-06-30)
备注: Accepted to ICCV 2025. Project page: \url{https://isee-laboratory.github.io/ReferDINO}
💡 一句话要点
提出ReferDINO以解决视频目标分割中的视觉引导问题
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 引用视频目标分割 视觉-语言对齐 时空推理 可变形掩码解码器 动态变化捕捉 实时推理 深度学习
📋 核心要点
- 现有的引用视频目标分割方法在视觉-语言理解、像素级预测和时空推理等方面存在明显不足,难以全面解决问题。
- 本文提出ReferDINO模型,结合区域级视觉-语言对齐、像素级密集感知和跨模态时空推理,提供了一种新的解决方案。
- 实验结果显示,ReferDINO在多个基准测试中表现优异,尤其在Ref-YouTube-VOS上提升了3.9%的性能,同时保持实时推理速度。
📝 摘要(中文)
引用视频目标分割(RVOS)旨在根据文本描述对视频中的目标对象进行分割。这一任务面临深度视觉-语言理解、像素级密集预测和时空推理等多重挑战。尽管近年来已有显著进展,但现有方法在综合考虑这些方面时仍存在明显差距。本文提出了ReferDINO,一个强大的RVOS模型,继承了基础视觉引导模型的区域级视觉-语言对齐,并进一步具备像素级密集感知和跨模态时空推理。ReferDINO集成了两个关键组件:1)一个基于引导的可变形掩码解码器,通过可微分变形机制逐步引导掩码预测;2)一个对象一致的时间增强器,将预训练的时变文本特征注入帧间交互,以捕捉对象感知的动态变化。此外,设计了一种基于置信度的查询修剪策略,以加速对象解码而不影响模型性能。在五个基准上的广泛实验结果表明,ReferDINO显著超越了之前的方法(例如,在Ref-YouTube-VOS上提升3.9% ( extmath{J}& extmath{F})),且具有实时推理速度(51 FPS)。
🔬 方法详解
问题定义:本文解决的是引用视频目标分割(RVOS)问题,现有方法在视觉-语言理解、像素级预测和时空推理等方面存在明显不足,导致性能不佳。
核心思路:ReferDINO模型通过结合区域级视觉-语言对齐与像素级密集感知,利用引导机制和时变文本特征来增强模型的时空推理能力,从而更有效地进行目标分割。
技术框架:ReferDINO的整体架构包括两个主要模块:1)引导的可变形掩码解码器,逐步引导掩码预测;2)对象一致的时间增强器,注入时变文本特征以捕捉动态变化。
关键创新:ReferDINO的主要创新在于引入了基于引导的可变形掩码解码器和对象一致的时间增强器,这与现有方法的静态预测机制形成了鲜明对比,显著提升了时空推理能力。
关键设计:模型设计中采用了置信度感知的查询修剪策略,以加速对象解码过程,同时保持高性能。此外,网络结构和损失函数经过精心设计,以确保模型在复杂场景下的鲁棒性和准确性。
🖼️ 关键图片
📊 实验亮点
在五个基准测试中,ReferDINO的表现显著优于之前的方法,特别是在Ref-YouTube-VOS上提升了3.9%的( extmath{J}& extmath{F})指标。同时,模型实现了51 FPS的实时推理速度,展示了其在实际应用中的可行性。
🎯 应用场景
ReferDINO在视频监控、自动驾驶、智能家居等领域具有广泛的应用潜力。通过精准的目标分割技术,可以提升系统对动态场景的理解能力,增强人机交互体验,并为后续的智能决策提供支持。未来,该技术有望在更多复杂场景中得到应用,推动相关领域的发展。
📄 摘要(原文)
Referring video object segmentation (RVOS) aims to segment target objects throughout a video based on a text description. This is challenging as it involves deep vision-language understanding, pixel-level dense prediction and spatiotemporal reasoning. Despite notable progress in recent years, existing methods still exhibit a noticeable gap when considering all these aspects. In this work, we propose \textbf{ReferDINO}, a strong RVOS model that inherits region-level vision-language alignment from foundational visual grounding models, and is further endowed with pixel-level dense perception and cross-modal spatiotemporal reasoning. In detail, ReferDINO integrates two key components: 1) a grounding-guided deformable mask decoder that utilizes location prediction to progressively guide mask prediction through differentiable deformation mechanisms; 2) an object-consistent temporal enhancer that injects pretrained time-varying text features into inter-frame interaction to capture object-aware dynamic changes. Moreover, a confidence-aware query pruning strategy is designed to accelerate object decoding without compromising model performance. Extensive experimental results on five benchmarks demonstrate that our ReferDINO significantly outperforms previous methods (e.g., +3.9% (\mathcal{J}&\mathcal{F}) on Ref-YouTube-VOS) with real-time inference speed (51 FPS).