Removing Cost Volumes from Optical Flow Estimators

📄 arXiv: 2510.13317v1 📥 PDF

作者: Simon Kiefhaber, Stefan Roth, Simone Schaub-Meyer

分类: cs.CV

发布日期: 2025-10-15

备注: ICCV 2025


💡 一句话要点

提出一种训练策略,可在光流估计中移除代价体,显著提升推理速度并降低内存占用。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 光流估计 代价体 深度学习 训练策略 实时性 内存优化 RAFT

📋 核心要点

  1. 现有光流估计器依赖代价体,但其高昂的计算和存储成本限制了速度和分辨率。
  2. 通过观察发现,充分训练后代价体的重要性降低,提出训练策略以移除代价体。
  3. 实验表明,该方法显著提升推理速度,降低内存占用,同时保持甚至提升精度。

📝 摘要(中文)

代价体在现代光流估计器中被广泛使用,但其计算和空间复杂度限制了处理速度和输入帧的分辨率。本文受到一个经验观察的启发,即在基于RAFT的流程中,一旦其他网络部分得到充分训练,代价体的重要性就会降低。因此,本文提出了一种训练策略,允许在整个训练过程中从光流估计器中移除代价体,从而显著提高推理速度并降低内存需求。利用该训练策略,本文创建了三种不同的模型,以适应不同的计算预算。其中,最精确的模型达到了最先进的精度,同时速度提高了1.2倍,内存占用降低了6倍;最快的模型能够以20 FPS的速度处理全高清帧,且仅使用500MB的GPU内存。

🔬 方法详解

问题定义:现有光流估计器依赖代价体进行像素间的匹配,但代价体的构建和存储需要大量的计算资源和内存空间,成为限制光流估计器速度和分辨率的关键瓶颈。尤其是在高分辨率图像或视频处理中,代价体的计算和存储压力更加明显。

核心思路:论文的核心思路是,通过特定的训练策略,使得光流估计器在训练过程中逐渐降低对代价体的依赖,最终可以在推理阶段完全移除代价体。作者观察到,当网络的其他部分(例如特征提取、上下文网络等)经过充分训练后,代价体提供的额外信息增益会逐渐减小。因此,可以通过逐步减少代价体的作用,让网络学习到如何在没有代价体的情况下也能准确估计光流。

技术框架:整体框架基于现有的光流估计器,例如RAFT。主要的修改在于训练过程。训练初期,使用完整的RAFT结构,包含代价体。随着训练的进行,逐渐降低代价体的影响,例如通过引入一个可学习的权重来缩放代价体的输出,并逐渐将该权重降为零。最终,网络在没有代价体的情况下进行微调,以适应新的结构。

关键创新:最重要的创新点在于提出了一种有效的训练策略,能够在不显著降低光流估计精度的情况下,完全移除代价体。这种训练策略允许网络学习到一种更加高效的光流估计方式,避免了代价体带来的计算和存储瓶颈。

关键设计:关键的设计在于如何逐步降低代价体的影响。一种可能的方法是引入一个可学习的权重,该权重乘以代价体的输出。在训练初期,该权重接近于1,表示代价体起主要作用。随着训练的进行,该权重逐渐减小到0,表示代价体的影响逐渐消失。此外,损失函数的设计也需要考虑,例如可以引入正则化项,鼓励网络学习到更加平滑的光流场,从而减少对代价体的依赖。

📊 实验亮点

实验结果表明,使用该训练策略训练的光流估计器在精度上可以达到state-of-the-art水平,同时推理速度提高了1.2倍,内存占用降低了6倍。最快的模型能够在单个GPU上以20 FPS的速度处理全高清(Full HD)视频,且仅需500MB的GPU内存。这些结果表明,该方法在实际应用中具有显著的优势。

🎯 应用场景

该研究成果可广泛应用于需要实时光流估计的场景,例如自动驾驶、机器人导航、视频监控和增强现实等。通过降低计算复杂度和内存占用,该方法使得光流估计能够在资源受限的设备上运行,并能够处理更高分辨率的图像和视频。未来,该方法可以进一步扩展到其他需要密集对应估计的任务中。

📄 摘要(原文)

Cost volumes are used in every modern optical flow estimator, but due to their computational and space complexity, they are often a limiting factor regarding both processing speed and the resolution of input frames. Motivated by our empirical observation that cost volumes lose their importance once all other network parts of, e.g., a RAFT-based pipeline have been sufficiently trained, we introduce a training strategy that allows removing the cost volume from optical flow estimators throughout training. This leads to significantly improved inference speed and reduced memory requirements. Using our training strategy, we create three different models covering different compute budgets. Our most accurate model reaches state-of-the-art accuracy while being $1.2\times$ faster and having a $6\times$ lower memory footprint than comparable models; our fastest model is capable of processing Full HD frames at $20\,\mathrm{FPS}$ using only $500\,\mathrm{MB}$ of GPU memory.