FMOcc: TPV-Driven Flow Matching for 3D Occupancy Prediction with Selective State Space Model
作者: Jiangxia Chen, Tongyuan Huang, Ke Song
分类: cs.CV
发布日期: 2025-07-03
💡 一句话要点
FMOcc:基于TPV和流匹配的3D Occupancy预测,提升少帧场景下的预测精度
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 3D Occupancy预测 自动驾驶 流匹配 状态空间模型 三透视视图 特征细化 少帧图像
📋 核心要点
- 现有3D Occupancy预测方法在少帧图像下,对遮挡和远距离场景预测精度不足,且融合历史帧数据计算成本高昂。
- FMOcc通过流匹配模型细化特征,并设计TPV SSM层和PS3M选择性过滤特征,提升模型效率和远距离预测能力。
- 实验表明,FMOcc在Occ3D-nuScenes和OpenOcc数据集上优于现有方法,并在资源消耗方面表现出优势。
📝 摘要(中文)
3D语义Occupancy预测在自动驾驶中至关重要。然而,少帧图像的固有局限性和3D空间的冗余性降低了对遮挡和远距离场景的预测精度。现有方法通过融合历史帧数据来提高性能,但这需要额外的数据和大量的计算资源。为了解决这些问题,本文提出了一种基于三透视视图(TPV)细化的Occupancy网络FMOcc,该网络具有用于少帧3D Occupancy预测的流匹配选择性状态空间模型。首先,为了生成缺失的特征,我们设计了一个基于流匹配模型的特征细化模块,称为流匹配SSM模块(FMSSM)。此外,通过设计TPV SSM层和平面选择性SSM(PS3M),我们有选择地过滤TPV特征,以减少空气体素对非空气体素的影响,从而提高模型的整体效率和对远距离场景的预测能力。最后,我们设计了掩码训练(MT)方法,以增强FMOcc的鲁棒性并解决传感器数据丢失的问题。在Occ3D-nuScenes和OpenOcc数据集上的实验结果表明,我们的FMOcc优于现有的最先进方法。我们的FMOcc在Occ3D-nuScenes验证集上使用两帧输入实现了43.1%的RayIoU和39.8%的mIoU,在OpenOcc上实现了42.6%的RayIoU,推理内存为5.4 G,推理时间为330ms。
🔬 方法详解
问题定义:现有3D Occupancy预测方法在少帧图像输入的情况下,难以准确预测被遮挡和远距离的场景。直接融合历史帧数据虽然可以提升性能,但会显著增加计算负担和数据需求,不适用于资源受限的场景。因此,如何在少帧输入下,高效且准确地进行3D Occupancy预测是一个关键问题。
核心思路:论文的核心思路是利用流匹配模型来填补缺失的特征,并结合选择性状态空间模型(SSM)来过滤冗余信息,从而提高预测精度和效率。具体来说,通过流匹配模型学习特征之间的流动关系,从而推断出被遮挡区域的特征。同时,利用TPV(三透视视图)表示和选择性SSM,减少空气体素等无关信息对预测的影响,聚焦于有效信息的处理。
技术框架:FMOcc的整体框架包含以下几个主要模块:1) 特征提取模块:从输入的少帧图像中提取特征。2) FMSSM(Flow Matching SSM)模块:利用流匹配模型细化特征,生成缺失的特征。3) TPV SSM层:在TPV表示上应用SSM,建模空间关系。4) PS3M(Plane Selective SSM)模块:选择性地过滤TPV特征,减少空气体素的影响。5) Occupancy预测模块:基于细化后的特征进行3D Occupancy预测。6) Mask Training (MT):通过掩码训练增强模型的鲁棒性。
关键创新:该论文的关键创新在于:1) 提出了FMSSM模块,利用流匹配模型进行特征细化,有效填补了少帧图像中缺失的信息。2) 设计了TPV SSM层和PS3M模块,选择性地过滤TPV特征,减少了冗余信息对预测的影响,提高了模型的效率和精度。3) 引入了Mask Training方法,增强了模型对传感器数据丢失的鲁棒性。
关键设计:1) 流匹配模型:采用连续归一化流(CNF)作为流匹配模型,学习特征之间的流动关系。2) TPV表示:将3D空间信息投影到三个正交的2D平面上,形成TPV表示,便于进行空间推理。3) 选择性SSM:通过门控机制控制SSM的状态更新,选择性地保留重要的特征信息。4) 损失函数:采用交叉熵损失函数进行Occupancy预测,并结合掩码训练损失,提高模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
FMOcc在Occ3D-nuScenes验证集上,使用两帧输入达到了43.1%的RayIoU和39.8%的mIoU,显著优于现有方法。在OpenOcc数据集上,实现了42.6%的RayIoU,同时保持了较低的推理内存(5.4G)和较快的推理速度(330ms)。这些结果表明,FMOcc在精度、效率和资源消耗方面都具有显著优势。
🎯 应用场景
该研究成果可广泛应用于自动驾驶、机器人导航、智能监控等领域。通过提高在少帧图像下的3D Occupancy预测精度,可以增强自动驾驶系统对复杂环境的感知能力,提升行驶安全性。此外,该方法在计算资源有限的场景下也具有优势,可以降低部署成本,加速相关技术的落地。
📄 摘要(原文)
3D semantic occupancy prediction plays a pivotal role in autonomous driving. However, inherent limitations of fewframe images and redundancy in 3D space compromise prediction accuracy for occluded and distant scenes. Existing methods enhance performance by fusing historical frame data, which need additional data and significant computational resources. To address these issues, this paper propose FMOcc, a Tri-perspective View (TPV) refinement occupancy network with flow matching selective state space model for few-frame 3D occupancy prediction. Firstly, to generate missing features, we designed a feature refinement module based on a flow matching model, which is called Flow Matching SSM module (FMSSM). Furthermore, by designing the TPV SSM layer and Plane Selective SSM (PS3M), we selectively filter TPV features to reduce the impact of air voxels on non-air voxels, thereby enhancing the overall efficiency of the model and prediction capability for distant scenes. Finally, we design the Mask Training (MT) method to enhance the robustness of FMOcc and address the issue of sensor data loss. Experimental results on the Occ3D-nuScenes and OpenOcc datasets show that our FMOcc outperforms existing state-of-theart methods. Our FMOcc with two frame input achieves notable scores of 43.1% RayIoU and 39.8% mIoU on Occ3D-nuScenes validation, 42.6% RayIoU on OpenOcc with 5.4 G inference memory and 330ms inference time.