Denoise to Track: Harnessing Video Diffusion Priors for Robust Correspondence
作者: Tianyu Yuan, Yuanbo Yang, Lin-Zhuo Chen, Yao Yao, Zhuzhong Qian
分类: cs.CV
发布日期: 2025-12-04
💡 一句话要点
提出HeFT,利用视频扩散先验实现鲁棒的零样本点跟踪
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本学习 点跟踪 视频扩散模型 视觉先验 特征选择
📋 核心要点
- 现有方法在零样本点跟踪中缺乏鲁棒性,难以有效利用视频中的时空信息。
- HeFT利用预训练视频扩散模型的视觉先验,通过分析VDiT的内部表示,选择关键的注意力头和低频分量。
- HeFT在TAP-Vid基准上取得了SOTA的零样本跟踪性能,接近监督方法,无需标注数据。
📝 摘要(中文)
本文提出了一种名为HeFT(Head-Frequency Tracker)的零样本点跟踪框架,该框架利用了预训练视频扩散模型的视觉先验。为了更好地理解视频扩散Transformer(VDiT)如何编码时空信息,我们分析了其内部表示。分析表明,注意力头充当最小功能单元,分别专门用于匹配、语义理解和位置编码。此外,我们发现VDiT特征中的低频分量对于建立对应关系至关重要,而高频分量往往会引入噪声。基于这些见解,我们提出了一种头和频率感知的特征选择策略,该策略联合选择信息量最大的注意力头和低频分量,以提高跟踪性能。具体来说,我们的方法通过单步去噪提取判别性特征,应用特征选择,并采用带有前向-后向一致性检查的软argmax定位进行对应关系估计。在TAP-Vid基准上的大量实验表明,HeFT实现了最先进的零样本跟踪性能,接近监督方法的准确性,同时消除了对带注释训练数据的需求。我们的工作进一步强调了视频扩散模型作为强大基础模型在各种下游任务中的潜力,为统一的视觉基础模型铺平了道路。
🔬 方法详解
问题定义:论文旨在解决零样本点跟踪问题,即在没有标注训练数据的情况下,如何准确地跟踪视频中的特定点。现有方法通常难以有效利用视频中的时空信息,导致跟踪精度较低,鲁棒性较差。
核心思路:论文的核心思路是利用预训练视频扩散模型(特别是VDiT)所蕴含的强大视觉先验知识。通过分析VDiT的内部表示,发现不同的注意力头和频率分量在时空信息编码中扮演着不同的角色,并据此进行特征选择,从而提升跟踪性能。
技术框架:HeFT框架主要包含以下几个阶段:1) 单步去噪:利用预训练的视频扩散模型进行单步去噪,提取视频帧的特征表示。2) 特征选择:基于对VDiT内部表示的分析,选择信息量最大的注意力头和低频分量。3) 对应关系估计:采用软argmax定位方法,并结合前向-后向一致性检查,估计视频帧之间的对应关系。
关键创新:论文的关键创新在于提出了一种头和频率感知的特征选择策略。通过分析VDiT的内部表示,发现不同的注意力头和频率分量在时空信息编码中具有不同的作用,从而能够有选择性地提取最有利于跟踪的特征。与现有方法相比,该策略能够更有效地利用视频扩散模型的视觉先验知识。
关键设计:论文的关键设计包括:1) 注意力头选择:基于对VDiT内部表示的分析,选择对匹配、语义理解和位置编码贡献最大的注意力头。2) 频率分量选择:保留VDiT特征中的低频分量,抑制高频噪声。3) 软argmax定位:采用软argmax方法估计对应关系,并结合前向-后向一致性检查提高精度。
🖼️ 关键图片
📊 实验亮点
HeFT在TAP-Vid基准测试中取得了显著的成果,实现了最先进的零样本跟踪性能,并且接近有监督方法的精度。该方法无需任何标注数据,即可在多个具有挑战性的视频序列中实现精确的目标跟踪,证明了视频扩散模型在视觉任务中的强大潜力。
🎯 应用场景
该研究成果可应用于视频监控、自动驾驶、机器人导航等领域,实现对视频中特定目标的精确跟踪。通过利用预训练模型的视觉先验,可以降低对标注数据的依赖,提高跟踪系统的泛化能力和鲁棒性,具有重要的实际应用价值和广阔的应用前景。
📄 摘要(原文)
In this work, we introduce HeFT (Head-Frequency Tracker), a zero-shot point tracking framework that leverages the visual priors of pretrained video diffusion models. To better understand how they encode spatiotemporal information, we analyze the internal representations of Video Diffusion Transformer (VDiT). Our analysis reveals that attention heads act as minimal functional units with distinct specializations for matching, semantic understanding, and positional encoding. Additionally, we find that the low-frequency components in VDiT features are crucial for establishing correspondences, whereas the high-frequency components tend to introduce noise. Building on these insights, we propose a head- and frequency-aware feature selection strategy that jointly selects the most informative attention head and low-frequency components to enhance tracking performance. Specifically, our method extracts discriminative features through single-step denoising, applies feature selection, and employs soft-argmax localization with forward-backward consistency checks for correspondence estimation. Extensive experiments on TAP-Vid benchmarks demonstrate that HeFT achieves state-of-the-art zero-shot tracking performance, approaching the accuracy of supervised methods while eliminating the need for annotated training data. Our work further underscores the promise of video diffusion models as powerful foundation models for a wide range of downstream tasks, paving the way toward unified visual foundation models.