SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving

作者: Haiming Zhang, Yiyao Zhu, Wending Zhou, Xu Yan, Yingjie Cai, Bingbing Liu, Shuguang Cui, Zhen Li

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-09-20

备注: NeurIPS 2025 (Spotlight)

💡 一句话要点

SQS：通过查询式Splatting增强自动驾驶中的稀疏感知模型

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 稀疏感知模型 查询式Splatting 自监督学习 自动驾驶 预训练 3D目标检测 Occupancy Prediction

📋 核心要点

现有稀疏感知模型缺乏对细粒度上下文信息的有效利用，限制了其在复杂自动驾驶场景中的性能。
SQS通过查询式Splatting预训练，学习3D高斯表示，并利用自监督重建学习细粒度上下文特征。
实验表明，SQS显著提升了occupancy prediction和3D object detection的性能，超越了现有预训练方法。

📝 摘要（中文）

本文提出了一种名为SQS的查询式Splatting预训练方法，旨在提升自动驾驶中稀疏感知模型（SPMs）的性能。SQS引入了一个插件模块，该模块在预训练期间从稀疏查询中预测3D高斯表示，并利用自监督Splatting通过重建多视角图像和深度图来学习细粒度的上下文特征。在微调阶段，预训练的高斯查询通过查询交互机制无缝集成到下游网络中，从而将预训练查询与特定任务查询显式连接，有效满足了 occupancy prediction 和 3D object detection 的多样化需求。在自动驾驶基准测试上的大量实验表明，SQS在多个基于查询的3D感知任务中实现了显著的性能提升，尤其是在 occupancy prediction 和 3D object detection 方面，超越了以往最先进的预训练方法（例如，在 occupancy prediction 上 +1.3 mIoU，在 3D detection 上 +1.0 NDS）。

🔬 方法详解

问题定义：稀疏感知模型（SPMs）虽然计算效率高，但由于其稀疏性，难以捕捉场景中细粒度的上下文信息，导致在复杂自动驾驶任务（如精确的occupancy prediction和3D目标检测）中性能受限。现有方法要么依赖密集的BEV或体素表示，计算成本高昂，要么缺乏有效的预训练策略来提升SPMs的感知能力。

核心思路：SQS的核心思路是利用查询式Splatting进行预训练，学习场景的3D高斯表示。通过自监督的方式，利用多视角图像和深度图重建，迫使模型学习细粒度的上下文特征。这种方法既能保持SPMs的计算效率，又能有效提升其感知能力。

技术框架：SQS包含两个主要阶段：预训练和微调。在预训练阶段，SQS引入一个插件模块，该模块接收稀疏查询作为输入，预测3D高斯表示。然后，利用自监督Splatting，通过重建多视角图像和深度图来训练该模块。在微调阶段，预训练的高斯查询通过查询交互机制集成到下游任务的网络中，与任务特定的查询进行交互，从而提升下游任务的性能。

关键创新：SQS的关键创新在于其查询式Splatting预训练方法。与传统的预训练方法不同，SQS直接在稀疏查询上进行操作，避免了构建密集的中间表示，从而保持了计算效率。此外，SQS利用自监督Splatting，通过重建多视角图像和深度图来学习细粒度的上下文特征，这使得模型能够更好地理解复杂的自动驾驶场景。

关键设计：SQS的关键设计包括：1) 3D高斯表示的参数化方式，包括位置、尺度和旋转等；2) 自监督Splatting的损失函数，包括图像重建损失和深度图重建损失；3) 查询交互机制，用于将预训练的高斯查询与下游任务的查询进行融合。具体的参数设置和网络结构细节在论文中有详细描述，例如高斯分布的参数初始化方式，损失函数的权重设置等。

🖼️ 关键图片

📊 实验亮点

SQS在自动驾驶基准测试中取得了显著的性能提升。在occupancy prediction任务上，SQS相比现有最佳预训练方法提升了1.3 mIoU。在3D目标检测任务上，SQS相比现有最佳预训练方法提升了1.0 NDS。这些结果表明，SQS能够有效提升稀疏感知模型的性能，并在自动驾驶领域具有重要的应用价值。

🎯 应用场景

SQS具有广泛的应用前景，可用于提升自动驾驶系统中感知模块的性能，例如occupancy prediction、3D目标检测和场景重建等。通过提高感知精度，SQS可以增强自动驾驶系统的安全性和可靠性，并为更高级别的决策和控制提供更准确的环境信息。此外，该方法还可以应用于其他需要稀疏感知的领域，如机器人导航和增强现实。

📄 摘要（原文）

Sparse Perception Models (SPMs) adopt a query-driven paradigm that forgoes explicit dense BEV or volumetric construction, enabling highly efficient computation and accelerated inference. In this paper, we introduce SQS, a novel query-based splatting pre-training specifically designed to advance SPMs in autonomous driving. SQS introduces a plug-in module that predicts 3D Gaussian representations from sparse queries during pre-training, leveraging self-supervised splatting to learn fine-grained contextual features through the reconstruction of multi-view images and depth maps. During fine-tuning, the pre-trained Gaussian queries are seamlessly integrated into downstream networks via query interaction mechanisms that explicitly connect pre-trained queries with task-specific queries, effectively accommodating the diverse requirements of occupancy prediction and 3D object detection. Extensive experiments on autonomous driving benchmarks demonstrate that SQS delivers considerable performance gains across multiple query-based 3D perception tasks, notably in occupancy prediction and 3D object detection, outperforming prior state-of-the-art pre-training approaches by a significant margin (i.e., +1.3 mIoU on occupancy prediction and +1.0 NDS on 3D detection).

SQS: Enhancing Sparse Perception Models via Query-based Splatting in Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理