Gamma-from-Mono: Road-Relative, Metric, Self-Supervised Monocular Geometry for Vehicular Applications

📄 arXiv: 2512.04303v1 📥 PDF

作者: Gasser Elazab, Maximilian Jansen, Michael Unterreiner, Olaf Hellwich

分类: cs.CV, cs.AI

发布日期: 2025-12-03

备注: Accepted in 3DV 2026


💡 一句话要点

提出Gamma-from-Mono,用于车辆应用中道路相对、度量、自监督单目几何估计

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知 (Perception & SLAM)

关键词: 单目深度估计 自监督学习 道路几何估计 车辆感知 平面视差 近场精度 度量深度

📋 核心要点

  1. 传统单目深度估计在道路场景中过度平滑几何细节,导致车辆控制所需关键信息丢失。
  2. GfM通过解耦全局道路平面和局部偏差,利用gamma值表示局部几何变化,实现更精确的近场深度估计。
  3. GfM仅需相机高度,通过闭式解恢复度量深度,避免了复杂外参校准,并在KITTI和RSRD上取得SOTA近场精度。

📝 摘要(中文)

精确感知车辆周围的3D环境,包括道路的精细几何结构(如颠簸、斜坡和表面不规则性),对于安全舒适的车辆控制至关重要。然而,传统的单目深度估计通常会过度平滑这些特征,丢失了运动规划和稳定性所需的关键信息。为了解决这个问题,我们提出了一种轻量级的单目几何估计方法Gamma-from-Mono (GfM),它通过解耦全局和局部结构来解决单相机重建中的投影模糊性。GfM预测一个主要的道路表面平面,以及由gamma表示的残余变化,gamma是垂直于该平面的偏差的无量纲度量,定义为点的高度与相机深度的比率,并基于已建立的平面视差几何。仅使用相机离地高度,这种表示就可以通过闭式解确定性地恢复度量深度,避免了完整的外参校准,并自然地优先考虑近路细节。其物理上可解释的公式使其非常适合自监督学习,无需大型带注释的数据集。在KITTI和道路表面重建数据集(RSRD)上的评估表明,GfM在深度和gamma估计方面都实现了最先进的近场精度,同时保持了具有竞争力的全局深度性能。我们轻量级的8.88M参数模型能够稳健地适应各种相机设置,并且据我们所知,是第一个在RSRD上评估的自监督单目方法。

🔬 方法详解

问题定义:现有单目深度估计方法在道路场景下,难以准确捕捉道路表面的精细几何结构,例如路面颠簸、斜坡等,这些细节对于车辆的运动规划和稳定性至关重要。传统方法倾向于过度平滑这些局部特征,导致关键信息的丢失。因此,需要一种能够更精确地估计道路几何结构的方法。

核心思路:GfM的核心思路是将道路场景的几何结构分解为全局的道路平面和一个局部的偏差项。全局道路平面提供了一个整体的参考框架,而局部偏差则通过gamma值来表示,gamma值定义为点到道路平面的垂直距离与相机到该点深度的比值。这种分解方式能够有效地解耦全局和局部结构,从而更精确地估计道路几何。

技术框架:GfM的整体框架包括以下几个主要步骤:1) 使用单目图像作为输入;2) 预测一个主要的道路表面平面;3) 预测gamma值,即每个像素点相对于道路平面的垂直偏差;4) 利用相机高度信息和预测的道路平面以及gamma值,通过闭式解计算出每个像素点的度量深度。整个过程是端到端可训练的,并且可以采用自监督的方式进行训练。

关键创新:GfM最重要的技术创新点在于其gamma值的引入和使用。gamma值是一种无量纲的度量,它能够有效地表示局部几何变化,并且与平面视差几何有着紧密的联系。通过gamma值,GfM能够更好地捕捉道路表面的精细结构,从而提高近场深度估计的精度。此外,GfM采用闭式解来计算度量深度,避免了复杂的优化过程,提高了计算效率。

关键设计:GfM的关键设计包括:1) 使用轻量级的神经网络结构,参数量仅为8.88M,易于部署;2) 采用自监督学习的方式进行训练,无需大量的标注数据;3) 利用相机高度信息作为先验知识,提高深度估计的准确性;4) 设计合适的损失函数,例如深度损失和gamma损失,以优化网络的训练。

📊 实验亮点

GfM在KITTI和RSRD数据集上进行了评估,取得了最先进的近场深度估计精度。在RSRD数据集上,GfM是第一个被评估的自监督单目方法。实验结果表明,GfM能够有效地捕捉道路表面的精细几何结构,并且具有良好的泛化能力,能够适应不同的相机设置。此外,GfM的轻量级模型使其易于部署在实际的车辆平台上。

🎯 应用场景

GfM在自动驾驶、高级驾驶辅助系统(ADAS)等领域具有广泛的应用前景。它可以用于提高车辆对道路环境的感知能力,从而改善车辆的运动规划和控制,提高行驶安全性。例如,GfM可以帮助车辆更好地识别路面颠簸,从而调整悬挂系统,提高乘坐舒适性。此外,GfM还可以用于道路维护和基础设施建设,例如通过分析道路表面的几何结构,评估道路的损坏程度。

📄 摘要(原文)

Accurate perception of the vehicle's 3D surroundings, including fine-scale road geometry, such as bumps, slopes, and surface irregularities, is essential for safe and comfortable vehicle control. However, conventional monocular depth estimation often oversmooths these features, losing critical information for motion planning and stability. To address this, we introduce Gamma-from-Mono (GfM), a lightweight monocular geometry estimation method that resolves the projective ambiguity in single-camera reconstruction by decoupling global and local structure. GfM predicts a dominant road surface plane together with residual variations expressed by gamma, a dimensionless measure of vertical deviation from the plane, defined as the ratio of a point's height above it to its depth from the camera, and grounded in established planar parallax geometry. With only the camera's height above ground, this representation deterministically recovers metric depth via a closed form, avoiding full extrinsic calibration and naturally prioritizing near-road detail. Its physically interpretable formulation makes it well suited for self-supervised learning, eliminating the need for large annotated datasets. Evaluated on KITTI and the Road Surface Reconstruction Dataset (RSRD), GfM achieves state-of-the-art near-field accuracy in both depth and gamma estimation while maintaining competitive global depth performance. Our lightweight 8.88M-parameter model adapts robustly across diverse camera setups and, to our knowledge, is the first self-supervised monocular approach evaluated on RSRD.