M2P: Improving Visual Foundation Models with Mask-to-Point Weakly-Supervised Learning for Dense Point Tracking
作者: Qiangqiang Wu, Tianyu Yang, Bo Fang, Jia Wan, Matias Di Martino, Guillermo Sapiro, Antoni B. Chan
分类: cs.CV
发布日期: 2026-03-18
💡 一句话要点
提出M2P:通过Mask-to-Point弱监督学习提升视觉基础模型,用于密集点追踪
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频点追踪 视觉基础模型 弱监督学习 掩码学习 时间对应 视频对象分割 表示学习
📋 核心要点
- 现有视觉基础模型在视频点追踪任务中表现欠佳,因为它们主要依赖静态图像预训练,缺乏对视频时序信息的有效利用。
- M2P方法利用视频对象分割掩码信息,通过局部结构一致性、掩码标签一致性和边界约束三个损失函数,实现对视觉基础模型的弱监督训练。
- 实验表明,M2P模型在TAP-Vid-DAVIS数据集上显著优于DINOv2等基线模型,并且可以作为预训练骨干网络提升下游任务性能。
📝 摘要(中文)
追踪任意点(TAP)已成为视频理解的基本工具。当前方法通过离线微调或测试时优化来适配视觉基础模型(VFMs),如DINOv2。然而,这些VFMs依赖于静态图像预训练,这对于捕捉视频中的密集时间对应关系来说并非最优。为了解决这个问题,我们提出了Mask-to-Point(M2P)学习,它利用丰富的视频对象分割(VOS)掩码标注来改进VFMs,以实现密集点追踪。我们的M2P引入了三个新的基于掩码的约束,用于弱监督表示学习。首先,我们提出了局部结构一致性损失,它利用Procrustes分析来建模位于局部结构内的点的内聚运动,从而实现更可靠的点对点匹配学习。其次,我们提出了掩码标签一致性(MLC)损失,它强制要求采样的前景点严格匹配跨帧的前景区域。所提出的MLC损失可以被视为一种正则化,它可以稳定训练并防止收敛到平凡解。最后,掩码边界约束被应用于显式地监督边界点。我们表明,我们的弱监督M2P模型通过仅使用3.6K VOS训练视频进行高效训练,显著优于基线VFMs。值得注意的是,M2P在TAP-Vid-DAVIS基准测试中,相对于DINOv2-B/14和DINOv3-B/16分别实现了12.8%和14.6%的性能提升。此外,所提出的M2P模型被用作测试时优化和离线微调TAP任务的预训练骨干网络,展示了其作为点追踪通用预训练模型的潜力。代码将在接收后公开。
🔬 方法详解
问题定义:现有视觉基础模型(VFMs),如DINOv2,在处理视频中的密集点追踪任务时,由于其预训练主要基于静态图像,无法有效捕捉视频帧之间的时间对应关系,导致性能受限。因此,如何利用视频中的时序信息来提升VFMs在点追踪任务中的表现是一个关键问题。
核心思路:M2P的核心思路是利用视频对象分割(VOS)的掩码信息,通过弱监督学习的方式,让VFMs学习到更适合视频点追踪的特征表示。具体来说,它通过引入三种基于掩码的约束,即局部结构一致性、掩码标签一致性和边界约束,来引导模型学习。这种方法旨在利用VOS提供的帧间对象对应关系,从而提升模型对视频中点运动的理解能力。
技术框架:M2P的学习框架主要包括以下几个部分:首先,输入视频帧和对应的VOS掩码。然后,通过视觉基础模型提取特征。接着,计算三个损失函数:局部结构一致性损失、掩码标签一致性损失和边界约束损失。最后,利用这些损失函数对视觉基础模型进行微调,使其更好地适应视频点追踪任务。整个流程旨在利用VOS信息,以弱监督的方式提升VFMs的性能。
关键创新:M2P的关键创新在于提出了三种新的基于掩码的约束,用于弱监督表示学习。局部结构一致性损失利用Procrustes分析建模局部点的运动一致性,掩码标签一致性损失强制前景点与前景区域匹配,边界约束损失显式监督边界点。这些约束有效地利用了VOS信息,提升了模型对视频中点运动的理解能力。与现有方法相比,M2P无需大量人工标注,仅需VOS掩码即可实现有效的弱监督学习。
关键设计:局部结构一致性损失使用Procrustes分析来对齐局部邻域内的点集,从而保证局部运动的一致性。掩码标签一致性损失通过采样前景点,并确保这些点在不同帧中仍然位于前景区域内,从而实现对前景区域的约束。边界约束损失则直接监督掩码边界上的点,使其特征更加准确。这些损失函数的权重需要根据具体任务进行调整,以达到最佳性能。此外,M2P可以使用不同的视觉基础模型作为骨干网络,例如DINOv2-B/14和DINOv3-B/16。
🖼️ 关键图片
📊 实验亮点
M2P模型在TAP-Vid-DAVIS基准测试中取得了显著的性能提升。相对于DINOv2-B/14和DINOv3-B/16,M2P分别实现了12.8%和14.6%的性能提升。这些结果表明,M2P方法能够有效地利用VOS信息,提升视觉基础模型在视频点追踪任务中的表现。此外,M2P模型还可以作为预训练骨干网络,提升下游任务的性能,展示了其作为通用预训练模型的潜力。
🎯 应用场景
M2P方法具有广泛的应用前景,可应用于视频监控、自动驾驶、人机交互等领域。通过提升视频中目标点的追踪精度,可以为这些应用提供更可靠的视觉信息。例如,在自动驾驶中,可以更准确地追踪车辆和行人的运动轨迹,从而提高驾驶安全性。在视频监控中,可以更有效地追踪异常行为,从而提高安全性。M2P的弱监督学习方式也降低了对大量标注数据的依赖,使其更易于部署和应用。
📄 摘要(原文)
Tracking Any Point (TAP) has emerged as a fundamental tool for video understanding. Current approaches adapt Vision Foundation Models (VFMs) like DINOv2 via offline finetuning or test-time optimization. However, these VFMs rely on static image pre-training, which is inherently sub-optimal for capturing dense temporal correspondence in videos. To address this, we propose Mask-to-Point (M2P) learning, which leverages rich video object segmentation (VOS) mask annotations to improve VFMs for dense point tracking. Our M2P introduces three new mask-based constraints for weakly-supervised representation learning. First, we propose a local structure consistency loss, which leverages Procrustes analysis to model the cohesive motion of points lying within a local structure, achieving more reliable point-to-point matching learning. Second, we propose a mask label consistency (MLC) loss, which enforces that sampled foreground points strictly match foreground regions across frames. The proposed MLC loss can be regarded as a regularization, which stabilizes training and prevents convergence to trivial solutions. Finally, mask boundary constrain is applied to explicitly supervise boundary points. We show that our weaklysupervised M2P models significantly outperform baseline VFMs with efficient training by using only 3.6K VOS training videos. Notably, M2P achieves 12.8% and 14.6% performance gains over DINOv2-B/14 and DINOv3-B/16 on the TAP-Vid-DAVIS benchmark, respectively. Moreover, the proposed M2P models are used as pre-trained backbones for both test-time optimized and offline fine-tuned TAP tasks, demonstrating its potential to serve as general pre-trained models for point tracking. Code will be made publicly available upon acceptance.