ViBA: Implicit Bundle Adjustment with Geometric and Temporal Consistency for Robust Visual Matching

📄 arXiv: 2604.03377 📥 PDF

作者: Xiaoji Niu, Yuqing Wang, Yan Wang, Hailiang Tang, Tisheng Zhang

分类: cs.CV

发布日期: 2026-04-07


💡 一句话要点

ViBA:结合几何与时序一致性的隐式Bundle Adjustment,提升视觉匹配鲁棒性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 视觉里程计 Bundle Adjustment 特征学习 几何优化 时序一致性

📋 核心要点

  1. 现有视觉匹配方法依赖大量标注数据,限制了其在真实场景中的应用,并且泛化能力不足。
  2. ViBA通过结合几何优化和特征学习,在无约束视频流上进行在线训练,提升特征表示的稳定性和准确性。
  3. 实验表明,ViBA在EuRoC和UMA数据集上显著降低了平移和旋转误差,并保持了实时推理速度。

📝 摘要(中文)

现有的图像关键点检测和描述方法依赖于带有精确位姿和深度标注的数据集,这限制了它们的可扩展性和泛化能力,并常常降低导航和定位性能。我们提出了ViBA,一个可持续的学习框架,它将几何优化与特征学习相结合,用于在无约束的视频流上进行持续的在线训练。ViBA嵌入在一个标准的视觉里程计流程中,包含一个隐式可微分的几何残差框架:(i)用于帧间对应关系的初始跟踪网络,(ii)基于深度的离群点过滤,以及(iii)可微分的全局Bundle Adjustment,通过最小化重投影误差来联合优化相机位姿和特征点位置。通过结合来自BA的几何一致性和跨帧的长期时序一致性,ViBA强制执行稳定和精确的特征表示。我们在EuRoC和UMA数据集上评估了ViBA。与SuperPoint+SuperGlue、ALIKED和LightGlue等最先进的方法相比,ViBA在序列上将平均绝对平移误差(ATE)降低了12-18%,绝对旋转误差(ARE)降低了5-10%,同时保持了实时的推理速度(FPS 36-91)。在未见过的序列上进行评估时,它保留了超过90%的定位精度,展示了强大的泛化能力。这些结果表明,ViBA支持具有几何和时间一致性的连续在线学习,持续改进真实场景中的导航和定位。

🔬 方法详解

问题定义:论文旨在解决视觉里程计中,由于特征点检测和匹配的误差累积导致的定位精度下降问题。现有方法依赖于大量标注数据,泛化性差,且难以适应动态变化的真实环境。特征点提取和匹配的鲁棒性不足,容易受到光照变化、遮挡等因素的影响,导致位姿估计不准确。

核心思路:论文的核心思路是将几何优化(Bundle Adjustment)与特征学习相结合,利用BA的全局一致性约束来指导特征学习,同时利用学习到的特征来提升BA的精度和鲁棒性。通过隐式可微分的几何残差框架,实现特征学习和几何优化的端到端训练,从而在无监督或弱监督的情况下,提升视觉匹配的性能。

技术框架:ViBA嵌入在标准的视觉里程计流程中,主要包含三个模块:(1)初始跟踪网络:用于建立帧间特征点对应关系;(2)基于深度的离群点过滤:利用深度信息剔除错误的匹配点;(3)可微分的全局Bundle Adjustment:联合优化相机位姿和特征点位置,最小化重投影误差。整个框架采用端到端的可微分设计,允许梯度在特征学习和几何优化之间传播。

关键创新:ViBA的关键创新在于将Bundle Adjustment嵌入到特征学习的训练循环中,通过几何一致性约束来指导特征学习,从而提升特征的鲁棒性和准确性。与传统的先提取特征再进行BA的方法不同,ViBA实现了特征学习和几何优化的联合优化,从而更好地利用了数据中的几何信息。此外,ViBA还引入了长期时序一致性,进一步提升了特征表示的稳定性。

关键设计:ViBA使用一个初始跟踪网络(具体结构未知)来建立帧间特征点对应关系。深度信息的获取方式未知,但用于过滤错误的匹配点。Bundle Adjustment采用可微分的实现方式,允许梯度反向传播到特征提取网络。损失函数主要由重投影误差构成,可能还包含正则化项以防止过拟合。具体的网络结构、损失函数和优化算法等细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ViBA在EuRoC和UMA数据集上进行了评估,与SuperPoint+SuperGlue、ALIKED和LightGlue等先进方法相比,ViBA将平均绝对平移误差(ATE)降低了12-18%,绝对旋转误差(ARE)降低了5-10%,同时保持了实时的推理速度(FPS 36-91)。在未见过的序列上进行评估时,ViBA保留了超过90%的定位精度,展示了强大的泛化能力。

🎯 应用场景

ViBA适用于各种需要高精度定位和导航的场景,例如:增强现实(AR)、虚拟现实(VR)、机器人导航、自动驾驶、无人机巡检等。该方法能够提升视觉里程计的鲁棒性和精度,从而改善这些应用的用户体验和性能。通过在线学习,ViBA能够适应不同的环境和场景,具有很强的实用价值和应用前景。

📄 摘要(原文)

Most existing image keypoint detection and description methods rely on datasets with accurate pose and depth annotations, limiting scalability and generalization, and often degrading navigation and localization performance. We propose ViBA, a sustainable learning framework that integrates geometric optimization with feature learning for continuous online training on unconstrained video streams. Embedded in a standard visual odometry pipeline, it consists of an implicitly differentiable geometric residual framework: (i) an initial tracking network for inter-frame correspondences, (ii) depth-based outlier filtering, and (iii) differentiable global bundle adjustment that jointly refines camera poses and feature positions by minimizing reprojection errors. By combining geometric consistency from BA with long-term temporal consistency across frames, ViBA enforces stable and accurate feature representations. We evaluate ViBA on EuRoC and UMA datasets. Compared with state-of-the-art methods such as SuperPoint+SuperGlue, ALIKED, and LightGlue, ViBA reduces mean absolute translation error (ATE) by 12-18% and absolute rotation error (ARE) by 5-10% across sequences, while maintaining real-time inference speeds (FPS 36-91). When evaluated on unseen sequences, it retains over 90% localization accuracy, demonstrating robust generalization. These results show that ViBA supports continuous online learning with geometric and temporal consistency, consistently improving navigation and localization in real-world scenarios.