SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving

📄 arXiv: 2509.16588v1 📥 PDF

作者: Haiming Zhang, Yiyao Zhu, Wending Zhou, Xu Yan, Yingjie Cai, Bingbing Liu, Shuguang Cui, Zhen Li

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-09-20

备注: NeurIPS 2025 (Spotlight)


💡 一句话要点

SQS:通过查询式Splatting增强自动驾驶中的稀疏感知模型

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 稀疏感知模型 查询式Splatting 自监督学习 自动驾驶 预训练 3D目标检测 Occupancy Prediction

📋 核心要点

  1. 现有稀疏感知模型缺乏对细粒度上下文信息的有效利用,限制了其在复杂自动驾驶场景中的性能。
  2. SQS通过查询式Splatting预训练,学习3D高斯表示,并利用自监督重建学习细粒度上下文特征。
  3. 实验表明,SQS显著提升了occupancy prediction和3D object detection的性能,超越了现有预训练方法。

📝 摘要(中文)

本文提出了一种名为SQS的查询式Splatting预训练方法,旨在提升自动驾驶中稀疏感知模型(SPMs)的性能。SQS引入了一个插件模块,该模块在预训练期间从稀疏查询中预测3D高斯表示,并利用自监督Splatting通过重建多视角图像和深度图来学习细粒度的上下文特征。在微调阶段,预训练的高斯查询通过查询交互机制无缝集成到下游网络中,从而将预训练查询与特定任务查询显式连接,有效满足了 occupancy prediction 和 3D object detection 的多样化需求。在自动驾驶基准测试上的大量实验表明,SQS在多个基于查询的3D感知任务中实现了显著的性能提升,尤其是在 occupancy prediction 和 3D object detection 方面,超越了以往最先进的预训练方法(例如,在 occupancy prediction 上 +1.3 mIoU,在 3D detection 上 +1.0 NDS)。

🔬 方法详解

问题定义:稀疏感知模型(SPMs)虽然计算效率高,但由于其稀疏性,难以捕捉场景中细粒度的上下文信息,导致在复杂自动驾驶任务(如精确的occupancy prediction和3D目标检测)中性能受限。现有方法要么依赖密集的BEV或体素表示,计算成本高昂,要么缺乏有效的预训练策略来提升SPMs的感知能力。

核心思路:SQS的核心思路是利用查询式Splatting进行预训练,学习场景的3D高斯表示。通过自监督的方式,利用多视角图像和深度图重建,迫使模型学习细粒度的上下文特征。这种方法既能保持SPMs的计算效率,又能有效提升其感知能力。

技术框架:SQS包含两个主要阶段:预训练和微调。在预训练阶段,SQS引入一个插件模块,该模块接收稀疏查询作为输入,预测3D高斯表示。然后,利用自监督Splatting,通过重建多视角图像和深度图来训练该模块。在微调阶段,预训练的高斯查询通过查询交互机制集成到下游任务的网络中,与任务特定的查询进行交互,从而提升下游任务的性能。

关键创新:SQS的关键创新在于其查询式Splatting预训练方法。与传统的预训练方法不同,SQS直接在稀疏查询上进行操作,避免了构建密集的中间表示,从而保持了计算效率。此外,SQS利用自监督Splatting,通过重建多视角图像和深度图来学习细粒度的上下文特征,这使得模型能够更好地理解复杂的自动驾驶场景。

关键设计:SQS的关键设计包括:1) 3D高斯表示的参数化方式,包括位置、尺度和旋转等;2) 自监督Splatting的损失函数,包括图像重建损失和深度图重建损失;3) 查询交互机制,用于将预训练的高斯查询与下游任务的查询进行融合。具体的参数设置和网络结构细节在论文中有详细描述,例如高斯分布的参数初始化方式,损失函数的权重设置等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SQS在自动驾驶基准测试中取得了显著的性能提升。在occupancy prediction任务上,SQS相比现有最佳预训练方法提升了1.3 mIoU。在3D目标检测任务上,SQS相比现有最佳预训练方法提升了1.0 NDS。这些结果表明,SQS能够有效提升稀疏感知模型的性能,并在自动驾驶领域具有重要的应用价值。

🎯 应用场景

SQS具有广泛的应用前景,可用于提升自动驾驶系统中感知模块的性能,例如occupancy prediction、3D目标检测和场景重建等。通过提高感知精度,SQS可以增强自动驾驶系统的安全性和可靠性,并为更高级别的决策和控制提供更准确的环境信息。此外,该方法还可以应用于其他需要稀疏感知的领域,如机器人导航和增强现实。

📄 摘要(原文)

Sparse Perception Models (SPMs) adopt a query-driven paradigm that forgoes explicit dense BEV or volumetric construction, enabling highly efficient computation and accelerated inference. In this paper, we introduce SQS, a novel query-based splatting pre-training specifically designed to advance SPMs in autonomous driving. SQS introduces a plug-in module that predicts 3D Gaussian representations from sparse queries during pre-training, leveraging self-supervised splatting to learn fine-grained contextual features through the reconstruction of multi-view images and depth maps. During fine-tuning, the pre-trained Gaussian queries are seamlessly integrated into downstream networks via query interaction mechanisms that explicitly connect pre-trained queries with task-specific queries, effectively accommodating the diverse requirements of occupancy prediction and 3D object detection. Extensive experiments on autonomous driving benchmarks demonstrate that SQS delivers considerable performance gains across multiple query-based 3D perception tasks, notably in occupancy prediction and 3D object detection, outperforming prior state-of-the-art pre-training approaches by a significant margin (i.e., +1.3 mIoU on occupancy prediction and +1.0 NDS on 3D detection).