Focus on BEV: Self-calibrated Cycle View Transformation for Monocular Birds-Eye-View Segmentation
作者: Jiawei Zhao, Qixing Jiang, Xuede Li, Junfeng Luo
分类: cs.CV
发布日期: 2024-10-21
💡 一句话要点
FocusBEV:单目BEV分割的自校准循环视角变换方法
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱八:物理动画 (Physics-based Animation)
关键词: 鸟瞰图分割 单目视觉 自校准 视角变换 时间融合
📋 核心要点
- 现有单目BEV分割方法易受图像空间中BEV无关特征干扰,导致视角变换性能下降。
- FocusBEV通过自校准跨视角变换模块,抑制BEV无关区域,聚焦BEV相关区域,提升特征提取质量。
- 实验表明,FocusBEV在nuScenes和Argoverse数据集上均取得了SOTA结果,验证了方法的有效性。
📝 摘要(中文)
鸟瞰图(BEV)分割旨在建立从透视视角到顶视角的空间映射,并从单目图像中估计语义地图。最近的研究在视角变换中遇到了困难,这是由于图像空间中BEV无关特征的干扰。为了解决这个问题,我们提出了一个新的FocusBEV框架,包括:(i)一个自校准的跨视角变换模块,用于抑制图像中BEV无关的区域,并专注于视角变换阶段的BEV相关区域;(ii)一个即插即用的基于自运动的时间融合模块,利用带有记忆库的BEV空间中的时空结构一致性;(iii)一个与占用无关的IoU损失,以减轻语义和位置的不确定性。实验证据表明,我们的方法在两个流行的基准测试上取得了新的最先进的结果,即在nuScenes上达到29.2%的mIoU,在Argoverse上达到35.2%的mIoU。
🔬 方法详解
问题定义:单目图像的BEV分割旨在将透视图像转换为鸟瞰图,并进行语义分割。现有方法的主要痛点在于,图像中存在大量与BEV无关的特征,这些特征会干扰视角变换过程,导致分割精度下降。此外,语义和位置的不确定性也是一个挑战。
核心思路:FocusBEV的核心思路是,通过自校准机制,在视角变换之前,先抑制图像中与BEV无关的区域,从而使网络更加关注与BEV相关的特征。同时,利用时序信息和改进的损失函数来提高分割的准确性和鲁棒性。
技术框架:FocusBEV框架主要包含三个模块:(1) 自校准跨视角变换模块:用于抑制BEV无关区域,突出BEV相关区域;(2) 基于自运动的时间融合模块:利用连续帧之间的时空一致性,提高BEV分割的稳定性;(3) 占用无关的IoU损失:缓解语义和位置的不确定性,提高分割精度。整体流程是,首先通过自校准模块提取BEV相关特征,然后利用时间融合模块进行时序信息融合,最后通过占用无关的IoU损失进行优化。
关键创新:FocusBEV的关键创新在于自校准跨视角变换模块。该模块能够根据图像内容,动态地调整特征提取的关注区域,从而抑制BEV无关的特征,提高BEV相关特征的提取效率。这种自适应的特征提取方式是与现有方法最本质的区别。
关键设计:自校准模块的具体实现方式未知,论文中可能涉及注意力机制或可变形卷积等技术来实现自适应的特征提取。时间融合模块利用记忆库来存储历史信息,并通过自运动估计来对齐不同帧之间的BEV特征。占用无关的IoU损失的具体形式未知,但其目的是为了缓解语义和位置的不确定性。
🖼️ 关键图片
📊 实验亮点
FocusBEV在nuScenes数据集上取得了29.2%的mIoU,在Argoverse数据集上取得了35.2%的mIoU,均达到了新的SOTA水平。相较于之前的最佳方法,性能有显著提升,证明了所提出的自校准跨视角变换模块和时间融合模块的有效性。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航、智能交通等领域。通过单目图像实现准确的BEV分割,可以帮助车辆或机器人更好地理解周围环境,从而做出更安全、更合理的决策。例如,可以用于车道线检测、交通标志识别、行人检测等任务。
📄 摘要(原文)
Birds-Eye-View (BEV) segmentation aims to establish a spatial mapping from the perspective view to the top view and estimate the semantic maps from monocular images. Recent studies have encountered difficulties in view transformation due to the disruption of BEV-agnostic features in image space. To tackle this issue, we propose a novel FocusBEV framework consisting of $(i)$ a self-calibrated cross view transformation module to suppress the BEV-agnostic image areas and focus on the BEV-relevant areas in the view transformation stage, $(ii)$ a plug-and-play ego-motion-based temporal fusion module to exploit the spatiotemporal structure consistency in BEV space with a memory bank, and $(iii)$ an occupancy-agnostic IoU loss to mitigate both semantic and positional uncertainties. Experimental evidence demonstrates that our approach achieves new state-of-the-art on two popular benchmarks,\ie, 29.2\% mIoU on nuScenes and 35.2\% mIoU on Argoverse.