PoseFM: Relative Camera Pose Estimation Through Flow Matching
作者: Dominik Kuczkowski, Laura Ruotsalainen
分类: cs.CV
发布日期: 2026-04-24
🔗 代码/项目: GITHUB
💡 一句话要点
PoseFM:通过Flow Matching实现相对相机位姿估计,提升单目视觉里程计的鲁棒性。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 单目视觉里程计 位姿估计 Flow Matching 生成模型 不确定性估计
📋 核心要点
- 传统单目视觉里程计依赖确定性回归,缺乏不确定性感知,在复杂环境下鲁棒性不足。
- PoseFM将单目VO建模为生成任务,利用Flow Matching学习从噪声到位姿的映射分布。
- 实验表明,PoseFM在多个数据集上表现出色,在部分轨迹上实现了最低的绝对轨迹误差。
📝 摘要(中文)
单目视觉里程计(VO)是计算机视觉中的一个基本问题,在自主导航、增强现实等领域有广泛应用。虽然基于深度学习的方法最近在精度上已经超过了传统的几何方法,尤其是在手工特征由于结构或光照条件差而难以发挥作用的环境中,但大多数方法依赖于确定性回归,缺乏鲁棒应用所需的不确定性感知。我们提出了PoseFM,这是第一个使用Flow Matching (FM)将单目帧间VO重新定义为生成任务的框架。通过利用FM,我们将相机运动建模为一个分布而不是一个点估计,学习通过连续时间ODE将噪声转换为真实的位姿预测。这种方法为不确定性估计提供了一个原则性的机制,并能够在具有挑战性的视觉条件下进行鲁棒的运动推断。在我们的评估中,PoseFM在TartanAir、KITTI和TUM-RGBD基准测试中取得了优异的性能,在一些轨迹上实现了最低的绝对轨迹误差(ATE),并且总体上与最好的帧间单目VO方法具有竞争力。代码和模型检查点将在https://github.com/helsinki-sda-group/posefm上提供。
🔬 方法详解
问题定义:论文旨在解决单目视觉里程计在复杂视觉环境下鲁棒性不足的问题。现有基于深度学习的VO方法大多采用确定性回归,直接预测相机位姿,忽略了预测的不确定性,导致在光照变化、遮挡等情况下容易出错。
核心思路:PoseFM的核心思路是将相机位姿估计问题转化为一个生成建模问题,利用Flow Matching学习一个从噪声分布到真实位姿分布的映射。通过这种方式,模型可以学习到位姿预测的不确定性,从而提高鲁棒性。
技术框架:PoseFM的整体框架包括一个编码器和一个基于Flow Matching的生成器。编码器提取连续两帧图像的特征,然后Flow Matching模块学习一个连续时间常微分方程(ODE),将一个简单的噪声分布(如高斯分布)转换为相机位姿的分布。在推理阶段,通过求解ODE,可以从噪声中生成多个可能的位姿,从而估计位姿的不确定性。
关键创新:PoseFM的关键创新在于将Flow Matching引入到单目视觉里程计中,将位姿估计问题转化为生成建模问题。与传统的确定性回归方法不同,PoseFM能够学习位姿预测的不确定性,从而提高在复杂环境下的鲁棒性。这是首次将Flow Matching应用于单目VO。
关键设计:PoseFM使用连续时间ODE来建模位姿的生成过程。Flow Matching损失函数用于训练ODE,使得噪声分布能够平滑地转换为真实的位姿分布。编码器可以使用各种卷积神经网络结构,例如ResNet。在实验中,作者探索了不同的ODE求解器和噪声分布,以优化性能。
🖼️ 关键图片
📊 实验亮点
PoseFM在TartanAir、KITTI和TUM-RGBD等多个公开数据集上进行了评估,结果表明PoseFM具有很强的竞争力,在某些轨迹上实现了最低的绝对轨迹误差(ATE),并且总体上与最好的帧间单目VO方法相当。这表明PoseFM在复杂视觉环境下具有优越的性能。
🎯 应用场景
PoseFM的潜在应用领域包括自主导航(机器人、无人机)、增强现实、虚拟现实和三维重建等。该研究的实际价值在于提高了单目视觉里程计在复杂环境下的鲁棒性和精度,为这些应用提供了更可靠的定位和姿态估计。未来,该方法可以进一步扩展到多目视觉里程计和SLAM系统中。
📄 摘要(原文)
Monocular visual odometry (VO) is a fundamental computer vision problem with applications in autonomous navigation, augmented reality and more. While deep learning-based methods have recently shown superior accuracy compared to traditional geometric pipelines, particularly in environments where handcrafted features struggle due to poor structure or lighting conditions, most rely on deterministic regression, which lacks the uncertainty awareness required for robust applications. We propose PoseFM, the first framework to reformulate monocular frame-to-frame VO as a generative task using Flow Matching (FM). By leveraging FM, we model camera motion as a distribution rather than a point estimate, learning to transform noise into realistic pose predictions via continuous-time ODEs. This approach provides a principled mechanism for uncertainty estimation and enables robust motion inference under challenging visual conditions. In our evaluations, PoseFM achieves strong performance on TartanAir, KITTI and TUM-RGBD benchmarks, achieving the lowest absolute trajectory error (ATE) on some of the trajectories and overall being competitive with the best frame-to-frame monocular VO methods. Code and model checkpoints will be made available at https://github.com/helsinki-sda-group/posefm.