Rethinking Dense Optical Flow without Test-Time Scaling
作者: Praroop Chanda, Suryansh Kumar
分类: cs.CV
发布日期: 2026-05-08
备注: Accepted for publication at CVPR 2026; ViSCALE Workshop. Draft info: 10 pages, 2 figures, 4 tables
💡 一句话要点
提出一种无需测试时迭代优化的稠密光流估计框架,利用基础模型先验替代计算密集型细化过程。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 稠密光流 基础模型 特征融合 全局匹配 计算机视觉 推理优化
📋 核心要点
- 现有光流方法过度依赖复杂的迭代细化机制,导致推理阶段计算成本高昂,限制了其在实时场景中的广泛应用。
- 论文提出利用DINO-v2语义特征与单目深度几何先验进行融合,通过单次前向传播实现高精度光流估计,摒弃了迭代更新。
- 实验结果显示,该方法在无需测试时细化的前提下,在Sintel等基准测试中超越了多种主流模型,验证了基础模型先验的有效性。
📝 摘要(中文)
近期稠密光流领域的发展主要依赖于日益复杂的架构和多步测试时细化(test-time scaling)。虽然这些方法在基准测试中表现优异,但推理阶段计算开销巨大。本文探讨了是否可以通过利用现代基础模型中编码的强大视觉语义和几何先验,来减少甚至消除对昂贵迭代细化的需求。我们提出了一种单次前向传播的光流估计框架,通过冻结的DINO-v2主干提取视觉语义特征,并结合单目深度基础模型的几何线索。通过将这些互补先验融合为统一表示,并采用全局匹配公式,该方法无需循环更新或测试时优化即可估计稠密对应关系。实验表明,该方法在Sintel Final数据集上取得了2.81 EPE的优异成绩,在无需细化的情况下显著优于SEA-RAFT、RAFT及GMFlow等现有方法,证明了强基础模型先验可作为测试时缩放的高效替代方案。
🔬 方法详解
问题定义:论文旨在解决稠密光流估计中对测试时迭代细化(Test-time refinement)的过度依赖问题。现有SOTA方法(如RAFT系列)通常需要多次循环更新来逐步优化光流场,这不仅增加了推理延迟,也限制了模型在资源受限环境下的部署。
核心思路:核心思想是利用预训练基础模型(Foundation Models)中蕴含的丰富语义与几何信息,替代计算密集型的迭代过程。通过将视觉特征与深度先验显式融合,模型能够直接从单次前向传播中获得高质量的匹配对应关系。
技术框架:整体架构采用特征提取与全局匹配两阶段设计。首先,利用冻结的DINO-v2提取高层语义特征,同时引入单目深度模型获取场景几何线索;随后,将两者融合为统一的特征表示,通过全局匹配公式计算代价体(Cost Volume),最终直接回归出稠密光流场。
关键创新:最重要的创新在于证明了“强先验优于多步细化”。通过引入预训练模型的互补性先验,将光流估计问题从复杂的递归优化转化为基于特征匹配的单次推理问题,实现了性能与效率的平衡。
关键设计:关键设计包括特征融合模块,该模块负责对齐语义特征与几何深度信息;此外,采用全局匹配策略而非局部相关性计算,确保了在缺乏迭代细化的情况下,依然能够捕捉到大位移和复杂场景下的运动信息。
🖼️ 关键图片
📊 实验亮点
在Sintel Final基准测试中,该方法在无需任何测试时细化的情况下达到了2.81 EPE,显著优于SEA-RAFT、RAFT及GMFlow等同类基准。实验证明,该方法在保持极高推理效率的同时,实现了跨数据集的强泛化能力,成功验证了基础模型先验在光流任务中的替代潜力。
🎯 应用场景
该研究在自动驾驶、机器人视觉导航及视频处理领域具有重要价值。由于其无需迭代细化的特性,该方法极大地降低了推理延迟,非常适合对实时性要求极高的嵌入式设备或边缘计算平台,为实现高效、鲁棒的运动估计提供了新的技术路径。
📄 摘要(原文)
Recent progress in dense optical flow has been driven by increasingly complex architectures and multi-step refinement for test-time scaling. While these approaches achieve strong benchmark performance, they also require substantial computation during inference. This raises a fundamental question: Is scaling test-time computation the only way to improve dense optical flow accuracy? We argue that it is not. Instead, powerful visual semantic and geometric priors encoded in modern foundation models can reduce, if not overcome, the need for computationally expensive iterative refinement at test-time. In this paper, we present a framework that estimates dense optical flow in a single forward pass, leveraging pretrained foundation representations, while avoiding iterative refinement and additional inference-time computation, thus offering an alternative to test-time scaling. Our method extracts visual semantic features from a frozen DINO-v2 backbone and combines them with geometric cues from a monocular depth foundation model. We fuse these complementary priors into a unified representation and apply a global matching formulation to estimate dense correspondences without recurrent updates or test-time optimization. Despite avoiding iterative refinement, our approach achieves strong cross-dataset generalization across challenging benchmarks. On Sintel Final, we obtain 2.81 EPE without refinement, significantly improving over state-of-the-art (SOTA) SEA-RAFT under comparable training conditions and outperforming RAFT, GMFlow (without refinement), and recent FlowSeek in the same setting. These results suggest that strong foundation priors can substitute for test-time scaling, offering a computationally efficient alternative to refinement-heavy pipelines.