GravCal: Single-Image Calibration of IMU Gravity Priors with Per-Sample Confidence

📄 arXiv: 2603.19654v1 📥 PDF

作者: Haichao Zhu, Qian Zhang

分类: cs.CV

发布日期: 2026-03-20

备注: 14 pages, 4 figures


💡 一句话要点

GravCal:提出单图像重力先验校准模型,提升视觉惯性系统鲁棒性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 重力估计 单图像校准 IMU先验 视觉惯性系统 深度学习 传感器融合 姿态估计

📋 核心要点

  1. 现有方法通常直接从图像估计重力或假设惯性输入足够准确,忽略了校正噪声重力先验的实际问题。
  2. GravCal通过前馈网络,结合重力先验残差校正和图像独立估计,利用学习的门控自适应融合,校准单张图像的噪声重力先验。
  3. 实验表明,GravCal显著降低了重力方向的平均角度误差,并提供与先验质量相关的置信度信号,提升了下游系统的性能。

📝 摘要(中文)

本文提出GravCal,一种用于单图像重力先验校准的前馈模型。针对视觉惯性感知、增强现实和机器人等领域中,IMU提供的重力先验在存在线性加速度、振动和瞬态运动时不可靠的问题,GravCal利用单张RGB图像和噪声重力先验,预测校正后的重力方向以及每个样本的置信度。该模型融合了两种互补的预测结果:输入先验的残差校正和与先验无关的图像估计,并使用学习到的门控机制自适应地融合它们。实验结果表明,GravCal显著优于原始惯性先验,平均角度误差从22.02°(IMU先验)降低到14.24°,并且在先验严重损坏时改进更为显著。此外,本文还引入了一个包含超过14.8万帧的新数据集,该数据集包含VIO导出的真值重力和Mahony滤波器IMU先验,涵盖了各种场景和任意相机方向。学习到的门控机制也与先验质量相关,使其成为下游系统有用的置信度信号。

🔬 方法详解

问题定义:论文旨在解决视觉惯性系统中,由于线性加速度、振动和瞬态运动等因素导致IMU提供的重力先验不准确的问题。现有方法要么依赖于高质量的惯性数据,要么直接从图像中估计重力,无法有效利用并校正噪声较大的IMU重力先验。

核心思路:GravCal的核心思路是结合IMU提供的噪声重力先验和从单张图像中估计的重力方向,利用深度学习模型学习一个自适应的融合策略。模型同时预测重力先验的残差校正量和与先验无关的图像估计,并通过一个可学习的门控机制来动态地调整两者的权重,从而在噪声先验可用时利用其信息,在先验不可靠时依赖图像估计。

技术框架:GravCal是一个前馈神经网络模型,输入为RGB图像和噪声重力先验,输出为校正后的重力方向和置信度分数。模型包含两个主要分支:一个分支预测输入重力先验的残差校正量,另一个分支直接从图像中估计重力方向。然后,一个学习到的门控机制根据图像特征和重力先验,自适应地融合两个分支的输出,得到最终的重力方向估计。同时,门控机制的输出也作为置信度分数,表示估计结果的可靠性。

关键创新:GravCal的关键创新在于其自适应融合策略。通过学习一个门控机制,模型能够根据输入图像和重力先验的质量,动态地调整残差校正和图像估计的权重。这种方法既能利用可用的先验信息,又能避免噪声先验对估计结果的干扰。此外,模型还提供了一个置信度分数,可以用于下游任务,例如视觉里程计或增强现实。

关键设计:GravCal的网络结构细节未在摘要中详细说明,但可以推断其可能包含卷积神经网络(CNN)用于图像特征提取,以及全连接层或循环神经网络(RNN)用于融合和预测。损失函数可能包含重力方向预测的误差项(例如,角度误差)和置信度分数的正则化项。门控机制的具体实现方式也未知,但可能使用sigmoid函数或其他激活函数来生成0到1之间的权重。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GravCal能够显著降低重力方向的估计误差。在包含14.8万帧图像的数据集上,GravCal将平均角度误差从原始IMU先验的22.02°降低到14.24°。尤其是在先验质量较差的情况下,GravCal的改进更为显著。此外,学习到的门控机制与先验质量高度相关,可以作为下游系统的置信度信号。

🎯 应用场景

GravCal在视觉惯性里程计(VIO)、增强现实(AR)和机器人导航等领域具有广泛的应用前景。它可以提高VIO在恶劣环境下的鲁棒性,例如存在剧烈运动或振动的场景。在AR应用中,准确的重力方向估计可以改善虚拟物体的姿态估计和渲染效果。对于机器人导航,GravCal可以提供更可靠的姿态信息,从而提高导航的准确性和稳定性。未来,该方法可以扩展到其他传感器融合问题,例如融合GPS和视觉信息。

📄 摘要(原文)

Gravity estimation is fundamental to visual-inertial perception, augmented reality, and robotics, yet gravity priors from IMUs are often unreliable under linear acceleration, vibration, and transient motion. Existing methods often estimate gravity directly from images or assume reasonably accurate inertial input, leaving the practical problem of correcting a noisy gravity prior from a single image largely unaddressed. We present GravCal, a feedforward model for single-image gravity prior calibration. Given one RGB image and a noisy gravity prior, GravCal predicts a corrected gravity direction and a per-sample confidence score. The model combines two complementary predictions, including a residual correction of the input prior and a prior-independent image estimate, and uses a learned gate to fuse them adaptively. Extensive experiments show strong gains over raw inertial priors: GravCal reduces mean angular error from 22.02° (IMU prior) to 14.24°, with larger improvements when the prior is severely corrupted. We also introduce a novel dataset of over 148K frames with paired VIO-derived ground-truth gravity and Mahony-filter IMU priors across diverse scenes and arbitrary camera orientations. The learned gate also correlates with prior quality, making it a useful confidence signal for downstream systems.