State Space Model Meets Transformer: A New Paradigm for 3D Object Detection
作者: Chuxin Wang, Wenfei Yang, Xiang Liu, Tianzhu Zhang
分类: cs.CV, cs.AI
发布日期: 2025-03-18 (更新: 2025-03-19)
备注: Accepted by ICLR 2025. Project url: https://chuxwa.github.io/project_DEST/
💡 一句话要点
提出基于交互式状态空间模型的3D目标检测新范式DEST,显著提升性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 3D目标检测 状态空间模型 Transformer 点云处理 室内场景理解
📋 核心要点
- 基于DETR的3D目标检测方法依赖Transformer解码器迭代优化目标查询,但场景点特征固定,限制了性能提升。
- 受SSM启发,提出交互式状态空间模型DEST,将查询建模为系统状态,场景点建模为系统输入,实现高效特征交互。
- 实验表明,DEST在ScanNet V2和SUN RGB-D数据集上显著提升了GroupFree和VDETR基线的性能,达到SOTA。
📝 摘要(中文)
本文提出了一种新的基于交互式状态空间模型(DEST)的3D目标检测范式,旨在解决基于DETR的方法中Transformer解码器中场景点特征固定不变,导致后续解码器层贡献有限的问题。DEST利用状态空间模型(SSM)的高效上下文建模能力,设计了一种新颖的状态依赖SSM参数化方法,使系统状态能够有效地作为3D室内检测任务中的查询。此外,还引入了序列化和双向扫描策略、状态间注意力机制以及门控前馈网络等关键设计,以增强点云特征交互和通道间关联。该方法首次将查询建模为系统状态,场景点建模为系统输入,从而能够以线性复杂度同时更新场景点特征和查询特征。在ScanNet V2和SUN RGB-D数据集上的大量实验表明,DEST方法显著优于现有基线方法,并在两个数据集上均取得了新的SOTA。
🔬 方法详解
问题定义:现有基于DETR的3D目标检测方法,在Transformer解码器中,场景点特征在解码过程中保持不变,导致后续解码器层的贡献逐渐减小,限制了模型性能的进一步提升。这种静态的特征表示无法充分利用场景上下文信息,阻碍了目标检测精度的提高。
核心思路:本文的核心思路是将3D目标检测中的查询(query)建模为状态空间模型(SSM)中的系统状态,并将场景点云特征建模为SSM的输入。通过迭代地更新系统状态和输入,实现查询和场景点特征之间的交互,从而动态地调整场景点特征,使其更好地服务于目标检测任务。这种设计使得模型能够更有效地利用场景上下文信息,提升检测精度。
技术框架:DEST的整体框架包括以下几个主要模块:1) 序列化和双向扫描:将无序的点云数据转换为序列化的输入,并采用双向扫描策略,以捕捉更全面的上下文信息。2) 交互式状态空间模型(Interactive SSM):这是DEST的核心模块,它将查询建模为系统状态,场景点特征建模为系统输入,并通过状态转移矩阵和观测矩阵进行交互。3) 状态间注意力机制(Inter-state Attention):用于建模不同状态点之间的关系,增强状态表示的表达能力。4) 门控前馈网络(Gated Feed-Forward Network):用于增强通道间的相关性,提升特征的判别能力。
关键创新:DEST最关键的创新在于它将查询建模为系统状态,场景点建模为系统输入,并利用状态空间模型进行交互。这种建模方式与现有方法的本质区别在于,它能够同时更新查询特征和场景点特征,从而实现更有效的特征交互和上下文建模。此外,状态依赖的SSM参数化方法也是一个重要的创新点,它使得系统状态能够更好地适应3D室内检测任务。
关键设计:DEST的关键设计包括:1) 状态依赖的SSM参数化:SSM的参数(如状态转移矩阵和观测矩阵)是状态相关的,这意味着不同的状态点可以有不同的交互方式。2) 序列化和双向扫描策略:采用球查询(ball query)将点云数据转换为序列,并使用双向扫描来捕捉更全面的上下文信息。3) 损失函数:采用与基线方法相同的损失函数,以保证公平的比较。4) 网络结构:在SSM模块之后,添加了状态间注意力机制和门控前馈网络,以进一步增强特征的表达能力。
🖼️ 关键图片
📊 实验亮点
DEST在ScanNet V2和SUN RGB-D数据集上均取得了显著的性能提升。在ScanNet V2数据集上,基于GroupFree基线,AP50指标提升了5.3个百分点;在SUN RGB-D数据集上,AP50指标提升了3.2个百分点。基于VDETR基线,DEST在两个数据集上均达到了新的SOTA,证明了其有效性和优越性。
🎯 应用场景
该研究成果可广泛应用于室内场景理解、机器人导航、自动驾驶等领域。通过更精确的3D目标检测,可以提升机器人对环境的感知能力,使其能够更好地进行导航和交互。在自动驾驶领域,该技术可以帮助车辆更准确地识别周围的障碍物,提高驾驶安全性。此外,该方法还可以应用于虚拟现实和增强现实等领域,提供更逼真的场景体验。
📄 摘要(原文)
DETR-based methods, which use multi-layer transformer decoders to refine object queries iteratively, have shown promising performance in 3D indoor object detection. However, the scene point features in the transformer decoder remain fixed, leading to minimal contributions from later decoder layers, thereby limiting performance improvement. Recently, State Space Models (SSM) have shown efficient context modeling ability with linear complexity through iterative interactions between system states and inputs. Inspired by SSMs, we propose a new 3D object DEtection paradigm with an interactive STate space model (DEST). In the interactive SSM, we design a novel state-dependent SSM parameterization method that enables system states to effectively serve as queries in 3D indoor detection tasks. In addition, we introduce four key designs tailored to the characteristics of point cloud and SSM: The serialization and bidirectional scanning strategies enable bidirectional feature interaction among scene points within the SSM. The inter-state attention mechanism models the relationships between state points, while the gated feed-forward network enhances inter-channel correlations. To the best of our knowledge, this is the first method to model queries as system states and scene points as system inputs, which can simultaneously update scene point features and query features with linear complexity. Extensive experiments on two challenging datasets demonstrate the effectiveness of our DEST-based method. Our method improves the GroupFree baseline in terms of AP50 on ScanNet V2 (+5.3) and SUN RGB-D (+3.2) datasets. Based on the VDETR baseline, Our method sets a new SOTA on the ScanNetV2 and SUN RGB-D datasets.