PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation

作者: Shoumeng Qiu, Xinrun Li, XiangYang Xue, Jian Pu

分类: cs.CV

发布日期: 2024-12-19

备注: AAAI 2025

🔗 代码/项目: GITHUB

💡 一句话要点

提出PC-BEV，高效融合极坐标与笛卡尔坐标BEV特征，用于LiDAR语义分割

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: LiDAR语义分割 BEV表示 多传感器融合 极坐标 笛卡尔坐标 Transformer CNN 自动驾驶

📋 核心要点

现有LiDAR语义分割方法依赖计算量大的多视角融合，缺乏固定对应关系导致效率瓶颈。
PC-BEV通过在BEV空间内融合极坐标和笛卡尔坐标划分策略，实现高效的特征融合。
实验表明，PC-BEV在SemanticKITTI和nuScenes数据集上，性能和推理速度均优于现有方法。

📝 摘要（中文）

多视角融合在LiDAR语义分割中展现了潜力，但其依赖于计算密集型的基于点的交互，源于诸如Range View和Bird's-Eye View (BEV)等视角之间缺乏固定的对应关系，这阻碍了其在实际中的部署。本文挑战了多视角融合对于实现高性能至关重要的普遍观点。我们证明，通过直接融合BEV空间内的极坐标和笛卡尔坐标划分策略，可以实现显著的性能提升。我们提出的仅基于BEV的分割模型利用了这些划分方案之间固有的固定网格对应关系，从而实现比传统基于点的方法快几个数量级（170倍加速）的融合过程。此外，我们的方法促进了密集特征融合，与稀疏的基于点的替代方案相比，保留了更丰富的上下文信息。为了在保持推理效率的同时增强场景理解，我们还引入了一种混合Transformer-CNN架构。在SemanticKITTI和nuScenes数据集上的大量评估提供了有力的证据，表明我们的方法在性能和推理速度方面都优于以前的多视角融合方法，突出了基于BEV的融合在LiDAR分割中的潜力。

🔬 方法详解

问题定义：现有的LiDAR语义分割方法，特别是多视角融合方法，计算复杂度高，推理速度慢，难以实际部署。这是因为不同视角（如Range View和BEV）之间缺乏固定的对应关系，导致需要进行大量的基于点的交互，增加了计算负担。

核心思路：论文的核心思路是挑战多视角融合的必要性，提出直接在BEV空间内融合极坐标和笛卡尔坐标的特征。这两种坐标系在BEV空间中存在固定的网格对应关系，可以实现高效的特征融合，避免了复杂的点云交互。

技术框架：PC-BEV是一个仅基于BEV的分割模型，其主要流程包括：首先，将LiDAR点云投影到BEV空间，并分别使用极坐标和笛卡尔坐标进行划分；然后，对两种坐标下的BEV特征进行融合；最后，使用一个混合Transformer-CNN架构进行语义分割。该架构旨在增强场景理解，同时保持推理效率。

关键创新：最重要的技术创新点在于提出了极坐标和笛卡尔坐标BEV特征的融合方法。这种方法利用了两种坐标系之间的固定网格对应关系，实现了高效的密集特征融合，避免了传统方法中耗时的点云交互。此外，混合Transformer-CNN架构也是一个创新点，它结合了Transformer的全局上下文建模能力和CNN的局部特征提取能力。

关键设计：论文中没有详细描述关键参数设置或损失函数。网络结构方面，使用了混合Transformer-CNN架构，具体实现细节未知。极坐标和笛卡尔坐标BEV特征的融合方式是关键设计，但具体融合策略（例如，使用哪种融合算子）未知。

🖼️ 关键图片

📊 实验亮点

PC-BEV在SemanticKITTI和nuScenes数据集上取得了显著的性能提升，并且推理速度比传统基于点的方法快170倍。实验结果表明，PC-BEV在性能和效率方面都优于现有的多视角融合方法，证明了基于BEV的融合在LiDAR语义分割中的潜力。

🎯 应用场景

PC-BEV可以应用于自动驾驶、机器人导航、智慧城市等领域，用于快速准确地理解LiDAR点云数据，实现环境感知和语义分割。其高效的推理速度使其适合于实时性要求高的应用场景，例如自动驾驶车辆的实时障碍物检测和场景理解。

📄 摘要（原文）

Although multiview fusion has demonstrated potential in LiDAR segmentation, its dependence on computationally intensive point-based interactions, arising from the lack of fixed correspondences between views such as range view and Bird's-Eye View (BEV), hinders its practical deployment. This paper challenges the prevailing notion that multiview fusion is essential for achieving high performance. We demonstrate that significant gains can be realized by directly fusing Polar and Cartesian partitioning strategies within the BEV space. Our proposed BEV-only segmentation model leverages the inherent fixed grid correspondences between these partitioning schemes, enabling a fusion process that is orders of magnitude faster (170$\times$ speedup) than conventional point-based methods. Furthermore, our approach facilitates dense feature fusion, preserving richer contextual information compared to sparse point-based alternatives. To enhance scene understanding while maintaining inference efficiency, we also introduce a hybrid Transformer-CNN architecture. Extensive evaluation on the SemanticKITTI and nuScenes datasets provides compelling evidence that our method outperforms previous multiview fusion approaches in terms of both performance and inference speed, highlighting the potential of BEV-based fusion for LiDAR segmentation. Code is available at \url{https://github.com/skyshoumeng/PC-BEV.}

PC-BEV: An Efficient Polar-Cartesian BEV Fusion Framework for LiDAR Semantic Segmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理