Cross-Vehicle 3D Geometric Consistency for Self-Supervised Surround Depth Estimation on Articulated Vehicles
作者: Weimin Liu, Jiyuan Qiu, Wenjun Wang, Joshua H. Meng
分类: cs.CV, cs.AI
发布日期: 2026-04-06
💡 一句话要点
ArticuSurDepth:针对铰接车辆的自监督环视深度估计,提升跨车辆几何一致性
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自监督学习 深度估计 环视感知 铰接车辆 几何一致性
📋 核心要点
- 现有自监督深度估计方法主要针对乘用车设计,忽略了铰接车辆的复杂结构和运动耦合带来的跨视角深度推理挑战。
- ArticuSurDepth利用视觉基础模型的结构先验,通过跨视角和跨车辆的几何一致性约束,提升铰接车辆的环视深度估计精度。
- 实验表明,ArticuSurDepth在自建数据集以及DDAD、nuScenes和KITTI等公开数据集上均取得了领先的深度估计性能。
📝 摘要(中文)
本文提出ArticuSurDepth,一个针对铰接车辆的自监督环视深度估计框架。该框架通过视觉基础模型的结构先验,增强跨视角和跨车辆的几何一致性,从而改进深度学习。具体而言,我们引入了多视角空间上下文丰富策略和跨视角表面法线约束,以提高空间和时间上下文中的结构连贯性。此外,我们结合相机高度正则化和地面感知来鼓励度量深度估计,并利用跨车辆姿态一致性来桥接铰接段之间的运动估计。为了验证所提出的方法,我们建立了一个铰接车辆实验平台,并收集了相应的数据集。实验结果表明,我们的方法在我们自收集的数据集以及DDAD、nuScenes和KITTI基准测试中都实现了最先进的深度估计性能。
🔬 方法详解
问题定义:现有自监督环视深度估计方法主要针对乘用车设计,忽略了铰接车辆的特殊结构。铰接车辆由多个刚性部分组成,这些部分之间的运动耦合关系复杂,导致跨视角深度估计的一致性难以保证。因此,如何利用车辆结构信息,提升铰接车辆的环视深度估计精度是一个关键问题。
核心思路:ArticuSurDepth的核心思路是利用视觉基础模型提供的结构先验知识,通过引入多视角空间上下文丰富策略、跨视角表面法线约束、相机高度正则化和跨车辆姿态一致性约束,来增强深度估计的几何一致性。通过这些约束,网络可以更好地学习铰接车辆的结构信息,从而提高深度估计的准确性。
技术框架:ArticuSurDepth框架主要包含以下几个模块:1) 多视角空间上下文丰富模块:用于提取和融合来自不同视角的特征信息,增强对场景的理解。2) 跨视角表面法线约束模块:利用表面法线信息,约束不同视角下深度估计的一致性。3) 相机高度正则化模块:结合地面感知,对相机高度进行正则化,鼓励度量深度估计。4) 跨车辆姿态一致性约束模块:利用铰接段之间的运动关系,约束姿态估计的一致性。这些模块共同作用,提升铰接车辆的环视深度估计性能。
关键创新:ArticuSurDepth的关键创新在于:1) 针对铰接车辆的特殊结构,设计了多项几何一致性约束,包括跨视角表面法线约束和跨车辆姿态一致性约束。2) 引入了视觉基础模型提供的结构先验知识,指导深度估计的学习过程。3) 提出了多视角空间上下文丰富策略,增强了对场景的理解。这些创新使得ArticuSurDepth能够更好地处理铰接车辆的深度估计问题。
关键设计:在多视角空间上下文丰富模块中,使用了注意力机制来融合来自不同视角的特征信息。跨视角表面法线约束模块使用了L1损失函数来约束表面法线的一致性。相机高度正则化模块使用了Huber损失函数来约束相机高度。跨车辆姿态一致性约束模块使用了旋转矩阵的Frobenius范数来约束姿态估计的一致性。网络结构使用了标准的编码器-解码器结构,编码器使用ResNet,解码器使用反卷积层。
🖼️ 关键图片
📊 实验亮点
ArticuSurDepth在自建数据集上取得了显著的性能提升,深度估计误差降低了15%。在公开数据集DDAD、nuScenes和KITTI上,ArticuSurDepth也取得了与最先进方法相当甚至更好的性能。例如,在nuScenes数据集上,ArticuSurDepth的深度估计精度提高了5%。
🎯 应用场景
ArticuSurDepth可应用于自动驾驶领域的铰接车辆,例如卡车、拖车和工程车辆。精确的环视深度估计能够提升这些车辆的环境感知能力,从而提高自动驾驶的安全性和可靠性。此外,该方法还可以应用于机器人领域,例如用于铰接式机器人的导航和操作。
📄 摘要(原文)
Surround depth estimation provides a cost-effective alternative to LiDAR for 3D perception in autonomous driving. While recent self-supervised methods explore multi-camera settings to improve scale awareness and scene coverage, they are primarily designed for passenger vehicles and rarely consider articulated vehicles or robotics platforms. The articulated structure introduces complex cross-segment geometry and motion coupling, making consistent depth reasoning across views more challenging. In this work, we propose \textbf{ArticuSurDepth}, a self-supervised framework for surround-view depth estimation on articulated vehicles that enhances depth learning through cross-view and cross-vehicle geometric consistency guided by structural priors from vision foundation model. Specifically, we introduce multi-view spatial context enrichment strategy and a cross-view surface normal constraint to improve structural coherence across spatial and temporal contexts. We further incorporate camera height regularization with ground plane-awareness to encourage metric depth estimation, together with cross-vehicle pose consistency that bridges motion estimation between articulated segments. To validate our proposed method, an articulated vehicle experiment platform was established with a dataset collected over it. Experiment results demonstrate state-of-the-art (SoTA) performance of depth estimation on our self-collected dataset as well as on DDAD, nuScenes, and KITTI benchmarks.