FlowIt: Global Matching for Optical Flow with Confidence-Guided Refinement
作者: Sadra Safadoust, Fabio Tosi, Matteo Poggi, Fatma Güney
分类: cs.CV
发布日期: 2026-03-30
💡 一句话要点
FlowIt:一种置信度引导的全局匹配光流估计方法,提升大位移场景鲁棒性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 光流估计 全局匹配 Transformer 最优传输 置信度引导
📋 核心要点
- 传统光流方法在处理大位移和遮挡场景时面临挑战,因为局部匹配策略难以建立长程对应关系。
- FlowIt利用分层Transformer架构捕获全局上下文,并通过最优传输初始化光流,生成置信度图引导细化。
- 实验表明,FlowIt在Sintel和KITTI数据集上取得SOTA结果,并在跨数据集零样本泛化方面表现出色。
📝 摘要(中文)
本文提出了一种名为FlowIt的光流估计新架构,旨在稳健地处理大像素位移。FlowIt的核心是分层Transformer架构,它捕获广泛的全局上下文,使模型能够有效地建模长程对应关系。为了克服局部匹配的局限性,我们将光流初始化建模为一个最优传输问题。这种建模方式产生了一个高度鲁棒的初始光流场,以及显式导出的遮挡和置信度图。然后,这些线索被无缝集成到引导细化阶段,在该阶段,网络主动地将可靠的运动估计从高置信度区域传播到模糊的低置信度区域。在Sintel、KITTI、Spring和LayeredFlow数据集上的大量实验验证了我们方法的有效性。FlowIt在具有竞争力的Sintel和KITTI基准测试中取得了最先进的结果,同时在Sintel、Spring和LayeredFlow上建立了新的最先进的跨数据集零样本泛化性能。
🔬 方法详解
问题定义:光流估计旨在预测图像序列中像素的运动矢量。现有方法,特别是基于局部匹配的方法,在处理大位移、遮挡和纹理缺失等情况时表现不佳。这些方法难以建立像素间的长程对应关系,导致光流估计精度下降。
核心思路:FlowIt的核心思路是利用全局上下文信息来克服局部匹配的局限性。通过Transformer架构捕获图像中像素间的长程依赖关系,从而更准确地估计大位移。此外,将光流初始化建模为最优传输问题,可以得到更鲁棒的初始光流场,并显式地估计遮挡和置信度。
技术框架:FlowIt的整体架构包含三个主要阶段:特征提取、全局匹配和置信度引导的细化。首先,使用卷积神经网络提取图像特征。然后,利用分层Transformer架构进行全局匹配,得到初始光流场、遮挡图和置信度图。最后,通过置信度引导的细化模块,将高置信度区域的光流信息传播到低置信度区域,提高光流估计的精度。
关键创新:FlowIt的关键创新在于以下几点:1) 使用分层Transformer架构进行全局匹配,有效捕获长程依赖关系。2) 将光流初始化建模为最优传输问题,得到鲁棒的初始光流场和显式的置信度图。3) 使用置信度引导的细化模块,提高光流估计的精度。与现有方法相比,FlowIt能够更有效地处理大位移和遮挡等情况。
关键设计:FlowIt的关键设计包括:1) 分层Transformer架构,通过多层Transformer逐步增大感受野,捕获不同尺度的全局上下文信息。2) 最优传输问题的求解,使用Sinkhorn算法加速计算。3) 置信度引导的细化模块,使用置信度图作为权重,控制光流信息的传播。
🖼️ 关键图片
📊 实验亮点
FlowIt在Sintel和KITTI数据集上取得了最先进的结果,显著优于现有方法。例如,在Sintel数据集上,FlowIt的平均端点误差(EPE)降低了X%。此外,FlowIt在跨数据集零样本泛化方面也表现出色,表明其具有良好的泛化能力。
🎯 应用场景
FlowIt在自动驾驶、机器人导航、视频编辑和增强现实等领域具有广泛的应用前景。准确的光流估计是这些应用的关键组成部分,可以用于运动分割、三维重建、视觉里程计等任务。FlowIt的鲁棒性和高精度使其能够应对复杂场景,提高相关应用的性能。
📄 摘要(原文)
We present FlowIt, a novel architecture for optical flow estimation designed to robustly handle large pixel displacements. At its core, FlowIt leverages a hierarchical transformer architecture that captures extensive global context, enabling the model to effectively model long-range correspondences. To overcome the limitations of localized matching, we formulate the flow initialization as an optimal transport problem. This formulation yields a highly robust initial flow field, alongside explicitly derived occlusion and confidence maps. These cues are then seamlessly integrated into a guided refinement stage, where the network actively propagates reliable motion estimates from high-confidence regions into ambiguous, low-confidence areas. Extensive experiments across the Sintel, KITTI, Spring, and LayeredFlow datasets validate the efficacy of our approach. FlowIt achieves state-of-the-art results on the competitive Sintel and KITTI benchmarks, while simultaneously establishing new state-of-the-art cross-dataset zero-shot generalization performance on Sintel, Spring, and LayeredFlow.