IUP-Pose: Decoupled Iterative Uncertainty Propagation for Real-time Relative Pose Regression via Implicit Dense Alignment v1
作者: Jun Wang, Xiaoyan Huang
分类: cs.CV
发布日期: 2026-03-20
💡 一句话要点
IUP-Pose:基于隐式密集对齐的解耦迭代不确定性传播相对位姿回归,实现实时性。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 相对位姿估计 解耦迭代 隐式密集对齐 多头注意力 实时性
📋 核心要点
- 现有相对位姿回归方法在精度和效率之间存在权衡,特征匹配精度高但不可微,ViT可端到端训练但计算成本高。
- IUP-Pose提出解耦迭代框架,通过隐式密集对齐解决旋转平移耦合和特征对齐不足的问题,提升效率。
- 实验表明,IUP-Pose在MegaDepth1500数据集上达到73.3% AUC@20deg,70 FPS,参数量仅37M,兼顾精度与效率。
📝 摘要(中文)
相对位姿估计是SLAM、视觉定位和3D重建的基础。现有的相对位姿回归(RPR)方法面临一个关键的权衡:特征匹配流程虽然精度高,但通过不可微的RANSAC阻碍了梯度流动;而基于ViT的回归器是端到端可训练的,但对于实时部署来说成本过高。我们认为核心瓶颈在于旋转和平移估计之间的耦合以及跨视图特征对齐不足。我们提出了IUP-Pose,一个几何驱动的解耦迭代框架,具有隐式密集对齐。一个轻量级的多头双向交叉注意力(MHBC)模块对齐跨视图特征,而无需显式的匹配监督。对齐后的特征由一个解耦的旋转-平移流程处理:两个共享参数的旋转阶段迭代地细化具有不确定性的旋转,并且在平移预测之前,特征图通过旋转单应性H_inf重新对齐。IUP-Pose在MegaDepth1500上实现了73.3%的AUC@20deg,具有完全的端到端可微性,70 FPS的吞吐量和仅37M的参数,展示了实时边缘部署的良好精度-效率权衡。
🔬 方法详解
问题定义:论文旨在解决相对位姿估计问题,即给定两张图像,估计它们之间的相对旋转和平移关系。现有方法,如基于特征匹配的方法,虽然精度高,但依赖于不可微的RANSAC算法,阻碍了端到端训练;而基于ViT的方法虽然可以端到端训练,但计算量巨大,难以满足实时性要求。
核心思路:论文的核心思路是将旋转和平移估计解耦,并采用迭代的方式逐步优化旋转估计,同时利用隐式密集对齐模块增强跨视图特征的对齐能力。通过解耦,可以分别优化旋转和平移,降低问题的复杂度;通过迭代优化旋转,可以逐步提高旋转估计的精度;通过隐式密集对齐,可以避免显式的特征匹配,提高效率。
技术框架:IUP-Pose的整体框架包含以下几个主要模块:1) 特征提取模块:提取两张图像的特征;2) 多头双向交叉注意力(MHBC)模块:对齐跨视图特征,无需显式匹配监督;3) 解耦的旋转-平移流程:包含两个共享参数的旋转阶段,迭代细化旋转估计,并利用旋转单应性重新对齐特征图,最后进行平移预测。
关键创新:论文的关键创新在于以下几点:1) 解耦的旋转-平移估计流程,降低了问题的复杂度;2) 迭代的旋转优化,逐步提高旋转估计的精度;3) 轻量级的多头双向交叉注意力(MHBC)模块,实现隐式密集对齐,避免了显式的特征匹配。与现有方法相比,IUP-Pose在精度和效率之间取得了更好的平衡。
关键设计:MHBC模块采用多头注意力机制,增强了特征的表达能力。旋转阶段采用共享参数的设计,减少了参数量。损失函数包括旋转损失和平移损失,分别用于优化旋转和平移估计。旋转损失采用轴角表示法,平移损失采用L1损失。
🖼️ 关键图片
📊 实验亮点
IUP-Pose在MegaDepth1500数据集上取得了显著的性能提升,AUC@20deg达到73.3%,同时保持了70 FPS的吞吐量,参数量仅为37M。相比于现有的RPR方法,IUP-Pose在精度、效率和模型大小之间取得了更好的平衡,使其更适合于实时边缘部署。
🎯 应用场景
IUP-Pose具有广泛的应用前景,包括SLAM(同步定位与地图构建)、视觉定位、3D重建、增强现实等领域。其高精度和高效率使其特别适用于实时性要求高的场景,如移动机器人、无人机、自动驾驶等。未来,该方法有望进一步推广到更复杂的场景,如光照变化剧烈、遮挡严重等情况。
📄 摘要(原文)
Relative pose estimation is fundamental for SLAM, visual localization, and 3D reconstruction. Existing Relative Pose Regression (RPR) methods face a key trade-off: feature-matching pipelines achieve high accuracy but block gradient flow via non-differentiable RANSAC, while ViT-based regressors are end-to-end trainable but prohibitively expensive for real-time deployment. We identify the core bottlenecks as the coupling between rotation and translation estimation and insufficient cross-view feature alignment. We propose IUP-Pose, a geometry-driven decoupled iterative framework with implicit dense alignment. A lightweight Multi-Head Bi-Cross Attention (MHBC) module aligns cross-view features without explicit matching supervision. The aligned features are processed by a decoupled rotation-translation pipeline: two shared-parameter rotation stages iteratively refine rotation with uncertainty, and feature maps are realigned via rotational homography H_inf before translation prediction. IUP-Pose achieves 73.3% AUC@20deg on MegaDepth1500 with full end-to-end differentiability, 70 FPS throughput, and only 37M parameters, demonstrating a favorable accuracy-efficiency trade-off for real-time edge deployment.