Height-Guided Projection Reparameterization for Camera-LiDAR Occupancy
作者: Yuan Wu, Zhiqiang Yan, Jiawei Lian, Zhengxue Wang, Jian Yang
分类: cs.CV
发布日期: 2026-05-06
🔗 代码/项目: GITHUB
💡 一句话要点
HiPR:基于高度引导的投影重参数化方法,提升相机-LiDAR融合的Occupancy预测性能
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D Occupancy预测 相机-LiDAR融合 投影重参数化 高度引导 自动驾驶
📋 核心要点
- 现有3D occupancy预测方法难以有效处理真实场景中高度变化和数据稀疏性问题,导致特征聚合不准确。
- HiPR利用LiDAR高度信息自适应地调整投影空间,将采样点重新分配到几何上有意义的区域,并屏蔽无效区域。
- HiPR通过渐进高度条件策略缓解了训练不稳定问题,实验结果表明其性能优于现有方法,并保持实时性。
📝 摘要(中文)
本文提出了一种名为HiPR的相机-LiDAR occupancy预测框架,该框架采用高度引导的投影重参数化方法。针对现有方法在2D到3D视图转换中,固定投影空间难以捕捉真实场景的稀疏性和高度变化,导致对应关系模糊和特征聚合不可靠的问题,HiPR首先将LiDAR编码为BEV高度图,以捕获点云的最大高度。然后,HiPR利用高度先验调整每个pillar的采样范围,从而自适应地重参数化投影空间,将投影点重新分配到几何上有意义的区域。同时,屏蔽高度图的无效部分,避免误导特征聚合。此外,为了缓解由噪声LiDAR高度引起的训练不稳定问题,引入了训练时的渐进高度条件策略,逐步将条件信号从ground-truth高度过渡到LiDAR高度。大量实验表明,HiPR在保持实时推理的同时,始终优于现有的state-of-the-art方法。
🔬 方法详解
问题定义:3D occupancy预测旨在从传感器观测中推断密集的、体素级的场景语义。现有方法依赖于固定的投影空间,其中3D参考点沿pillar均匀采样。这种采样方式难以捕捉真实场景的稀疏性和高度变化,导致对应关系模糊和特征聚合不可靠。
核心思路:HiPR的核心思路是利用LiDAR点云的高度信息作为先验知识,自适应地调整2D图像特征到3D体素空间的投影方式。通过高度引导的投影重参数化,使得投影点能够更准确地落在场景中的有效区域,从而提高特征聚合的质量和预测的准确性。
技术框架:HiPR框架主要包含以下几个阶段:1) LiDAR高度图编码:将LiDAR点云编码为BEV高度图,表示每个pillar的最大高度。2) 高度引导的投影重参数化:利用高度图调整每个pillar的采样范围,重新参数化投影空间。3) 特征聚合:将图像特征投影到3D体素空间,并进行聚合。4) Occupancy预测:基于聚合后的特征进行体素级的语义预测。
关键创新:HiPR的关键创新在于提出了高度引导的投影重参数化方法。与现有方法中固定的投影空间不同,HiPR能够根据LiDAR高度信息自适应地调整投影空间,从而更有效地利用图像特征进行3D场景理解。此外,渐进高度条件策略也有效缓解了训练过程中的不稳定性。
关键设计:HiPR的关键设计包括:1) BEV高度图的编码方式,如何有效地提取和表示高度信息。2) 基于高度图的采样范围调整策略,如何自适应地确定每个pillar的采样范围。3) 渐进高度条件策略的具体实现,如何逐步将条件信号从ground-truth高度过渡到LiDAR高度。4) 为了避免噪声数据的影响,对无效区域进行mask操作。
🖼️ 关键图片
📊 实验亮点
HiPR在相机-LiDAR occupancy预测任务上取得了显著的性能提升,优于现有的state-of-the-art方法。论文中展示了具体的性能数据,并通过与基线方法的对比,验证了HiPR的有效性。实验结果表明,HiPR在保持实时推理速度的同时,能够更准确地预测场景的3D occupancy。
🎯 应用场景
HiPR在自动驾驶、机器人导航、三维重建等领域具有广泛的应用前景。通过更准确地预测场景的3D occupancy,可以提高自动驾驶系统的环境感知能力,提升机器人导航的安全性,并为三维重建提供更可靠的几何信息。该研究成果有助于推动智能系统在复杂环境中的应用。
📄 摘要(原文)
3D occupancy prediction aims to infer dense, voxel-wise scene semantics from sensor observations, where the 2D-to-3D view transformation serves as a crucial step in bridging image features and volumetric representations. Most previous methods rely on a fixed projection space, where 3D reference points are uniformly sampled along pillars. However, such sampling struggles to capture the sparsity and height variations of real-world scenes, leading to ambiguous correspondences and unreliable feature aggregation. To address these challenges, we propose HiPR, a camera-LiDAR occupancy framework with Height-Guided Projection Reparameterization. HiPR first encodes LiDAR into a BEV height map to capture the maximum height of the point cloud. HiPR then adjusts the sampling range of each pillar using the height prior, enabling adaptive reparameterization of the projection space. As a result, the projected points are redistributed into geometrically meaningful regions rather than fixed ranges. Meanwhile, we mask out the invalid parts of the height map to avoid misleading the feature aggregation. In addition, to alleviate the training instability caused by noisy LiDAR-derived heights, we introduce a training-time Progressive Height Conditioning strategy, which gradually transitions the conditioning signal from ground-truth heights to LiDAR heights. Extensive experiments demonstrate that HiPR consistently outperforms existing state-of-the-art methods while maintaining real-time inference. The code and pretrained models can be found at https://github.com/Rayn-Wu/HiPR.