FisheyeGaussianLift: BEV Feature Lifting for Surround-View Fisheye Camera Perception
作者: Shubham Sonarghare, Prasad Deshpande, Ciaran Hogan, Deepika-Rani Kaliappan-Mahalingam, Ganesh Sistu
分类: cs.CV
发布日期: 2025-11-21
备注: 8 pages, 3 figures, published in IMVIP 2025 conference
期刊: Proceedings of the Irish Machine Vision and Image Processing Conference 2025 1 to 3 September 2025 Ulster University Derry Londonderry pages 50 to 57 ISBN 97800993420795
💡 一句话要点
提出FisheyeGaussianLift,解决鱼眼相机BEV语义分割中的畸变和不确定性问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 鱼眼相机 BEV分割 语义分割 高斯分布 可微Splatting
📋 核心要点
- 鱼眼相机图像的BEV语义分割面临严重的非线性畸变、遮挡和深度不确定性等挑战。
- 提出FisheyeGaussianLift框架,通过高斯参数化显式建模几何不确定性,并进行可微splatting融合。
- 实验结果表明,该方法在复杂的停车和城市驾驶场景中取得了显著的分割性能提升。
📝 摘要(中文)
由于宽视角投影固有的极端非线性畸变、遮挡和深度模糊性,从鱼眼图像中进行精确的BEV语义分割仍然具有挑战性。本文提出了一种感知畸变的BEV分割框架,该框架直接处理多相机高分辨率鱼眼图像,利用校准的几何反投影和逐像素深度分布估计。每个图像像素通过高斯参数化被提升到3D空间,预测空间均值和各向异性协方差,以显式地建模几何不确定性。投影的3D高斯通过可微splatting融合到BEV表示中,产生连续的、感知不确定性的语义地图,而无需去畸变或透视校正。大量的实验表明,在复杂的停车和城市驾驶场景中,该方法具有强大的分割性能,在严重的鱼眼畸变和不同的环境条件下,可行驶区域的IoU得分为87.75%,车辆的IoU得分为57.26%。
🔬 方法详解
问题定义:论文旨在解决鱼眼相机图像的BEV(Bird's-Eye-View)语义分割问题。现有方法难以有效处理鱼眼镜头带来的极端非线性畸变、遮挡以及深度模糊性,导致分割精度下降。传统方法通常需要先进行图像去畸变,这会引入额外的计算开销和插值误差。
核心思路:论文的核心思路是直接在原始鱼眼图像上进行操作,避免显式的去畸变过程。通过将每个像素提升到3D空间,并使用高斯分布来建模像素位置的不确定性,从而更好地处理畸变和深度模糊。然后,将这些3D高斯分布融合到BEV表示中,生成连续且感知不确定性的语义地图。
技术框架:该框架主要包含以下几个阶段:1) 几何反投影:利用相机标定参数将鱼眼图像的每个像素反投影到3D空间。2) 高斯参数化:为每个像素预测一个3D高斯分布,包括空间均值和各向异性协方差,用于建模几何不确定性。3) 可微Splatting:将3D高斯分布投影到BEV平面上,并使用可微的splatting操作进行融合,生成BEV特征图。4) 语义分割:使用卷积神经网络对BEV特征图进行语义分割。
关键创新:最重要的技术创新点在于使用高斯分布来显式地建模鱼眼图像像素位置的不确定性。与传统方法直接将像素投影到3D空间相比,该方法能够更好地处理畸变和深度模糊,从而提高分割精度。此外,使用可微splatting操作实现了端到端的训练,避免了手动设计特征。
关键设计:高斯分布的均值和协方差通过神经网络预测得到。损失函数包括语义分割损失和正则化损失,用于约束高斯分布的形状。网络结构采用编码器-解码器结构,编码器用于提取图像特征,解码器用于预测高斯参数和语义分割结果。Splatting操作使用高斯核函数,其带宽与高斯分布的协方差相关联。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在复杂的停车和城市驾驶场景中取得了显著的分割性能提升。在严重的鱼眼畸变和不同的环境条件下,可行驶区域的IoU得分为87.75%,车辆的IoU得分为57.26%。这些结果表明,该方法能够有效处理鱼眼图像的畸变和不确定性,并实现高精度的BEV语义分割。
🎯 应用场景
该研究成果可应用于自动驾驶、智能泊车、机器人导航等领域。通过鱼眼相机获取周围环境信息,并进行BEV语义分割,可以帮助车辆或机器人更好地理解周围环境,从而实现更安全、更高效的自主导航。此外,该方法还可以应用于虚拟现实、增强现实等领域,用于生成更逼真的3D场景。
📄 摘要(原文)
Accurate BEV semantic segmentation from fisheye imagery remains challenging due to extreme non-linear distortion, occlusion, and depth ambiguity inherent to wide-angle projections. We present a distortion-aware BEV segmentation framework that directly processes multi-camera high-resolution fisheye images,utilizing calibrated geometric unprojection and per-pixel depth distribution estimation. Each image pixel is lifted into 3D space via Gaussian parameterization, predicting spatial means and anisotropic covariances to explicitly model geometric uncertainty. The projected 3D Gaussians are fused into a BEV representation via differentiable splatting, producing continuous, uncertainty-aware semantic maps without requiring undistortion or perspective rectification. Extensive experiments demonstrate strong segmentation performance on complex parking and urban driving scenarios, achieving IoU scores of 87.75% for drivable regions and 57.26% for vehicles under severe fisheye distortion and diverse environmental conditions.