Revisiting Token Compression for Accelerating ViT-based Sparse Multi-View 3D Object Detectors

📄 arXiv: 2604.14563v1 📥 PDF

作者: Mingqian Ji, Shanshan Zhang, Jian Yang

分类: cs.CV

发布日期: 2026-04-16

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB


💡 一句话要点

SEPatch3D:针对ViT稀疏多视角3D目标检测加速的动态Patch尺寸调整框架

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 3D目标检测 Vision Transformer Token压缩 动态Patch尺寸 多视角学习

📋 核心要点

  1. 基于ViT的稀疏多视角3D目标检测器计算量大,现有token压缩方法易丢失关键信息,影响检测精度。
  2. SEPatch3D通过时空感知动态调整patch尺寸,在保留关键语义信息的同时,降低计算成本。
  3. 实验表明,SEPatch3D在nuScenes和Argoverse 2数据集上,推理速度和效率均优于现有方法,且精度相当。

📝 摘要(中文)

基于Vision Transformer (ViT) 的稀疏多视角3D目标检测器虽然精度高,但由于token处理量大,推理延迟较高。本文重新审视了token剪枝、合并和增大patch尺寸等token压缩策略,发现它们会丢弃信息丰富的背景线索,破坏上下文一致性,并丢失细粒度语义,从而对3D检测产生负面影响。为了克服这些限制,我们提出了SEPatch3D,一种动态调整patch尺寸的框架,同时保留粗糙patch中的关键语义信息。具体来说,我们设计了时空感知Patch尺寸选择 (SPSS),为包含附近对象的场景分配小patch以保留精细细节,为背景主导的场景分配大patch以降低计算成本。为了进一步减轻潜在的细节损失,信息Patch选择 (IPS) 选择信息丰富的patch进行特征细化,跨粒度特征增强 (CGFE) 将细粒度细节注入到选定的粗糙patch中,丰富语义特征。在nuScenes和Argoverse 2验证集上的实验表明,SEPatch3D比StreamPETR基线快高达57%,比最先进的ToC3D-faster效率高20%,同时保持了相当的检测精度。

🔬 方法详解

问题定义:现有基于ViT的稀疏多视角3D目标检测器,虽然精度较高,但由于需要处理大量的token,导致推理速度较慢。现有的token压缩方法,如token剪枝、合并以及增大patch尺寸等,在压缩token数量的同时,往往会丢弃重要的背景信息,破坏上下文一致性,并损失细粒度的语义信息,从而对最终的3D目标检测精度产生负面影响。

核心思路:SEPatch3D的核心思路是动态地调整patch的尺寸,使其能够根据场景的复杂程度自适应地选择合适的patch大小。对于包含较多目标或者细节信息的区域,采用较小的patch尺寸以保留更多的细节信息;而对于背景区域,则采用较大的patch尺寸以减少计算量。同时,为了弥补因采用较大patch尺寸可能带来的信息损失,SEPatch3D还引入了信息丰富的patch选择和跨粒度特征增强机制。

技术框架:SEPatch3D框架主要包含三个核心模块:时空感知Patch尺寸选择 (SPSS)、信息Patch选择 (IPS) 和跨粒度特征增强 (CGFE)。首先,SPSS模块根据场景的时空信息,动态地为不同的区域分配不同大小的patch。然后,IPS模块从粗糙的patch中选择出包含更多信息的patch。最后,CGFE模块将细粒度的细节信息注入到选定的粗糙patch中,从而增强特征的表达能力。

关键创新:SEPatch3D的关键创新在于其动态patch尺寸调整机制,能够根据场景的复杂程度自适应地选择合适的patch大小,从而在保证检测精度的前提下,有效地降低计算量。与现有方法相比,SEPatch3D能够更好地平衡计算效率和检测精度,避免了因过度压缩token而导致的信息损失。

关键设计:SPSS模块通过学习一个时空注意力机制,来预测每个区域的patch尺寸。IPS模块通过计算每个patch的信息熵,来选择信息量最大的patch。CGFE模块则采用一个跨尺度的特征融合网络,将细粒度的特征信息注入到粗粒度的特征中。损失函数方面,除了标准的3D目标检测损失函数外,还引入了一个patch尺寸的正则化项,以鼓励网络学习到更加合理的patch尺寸分布。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SEPatch3D在nuScenes和Argoverse 2验证集上进行了实验,结果表明,相比于StreamPETR基线,SEPatch3D实现了高达57%的推理速度提升,并且比当前最优的ToC3D-faster方法效率提升了20%,同时保持了与基线相当的检测精度。这些结果验证了SEPatch3D在加速ViT-based稀疏多视角3D目标检测方面的有效性。

🎯 应用场景

SEPatch3D可应用于自动驾驶、机器人导航、智能交通等领域,提升3D目标检测系统的实时性和效率。通过降低计算需求,该方法有助于在资源受限的边缘设备上部署高精度3D感知系统,加速相关技术的落地应用,并为未来的三维场景理解提供更高效的解决方案。

📄 摘要(原文)

Vision Transformer (ViT)-based sparse multi-view 3D object detectors have achieved remarkable accuracy but still suffer from high inference latency due to heavy token processing. To accelerate these models, token compression has been widely explored. However, our revisit of existing strategies, such as token pruning, merging, and patch size enlargement, reveals that they often discard informative background cues, disrupt contextual consistency, and lose fine-grained semantics, negatively affecting 3D detection. To overcome these limitations, we propose SEPatch3D, a novel framework that dynamically adjusts patch sizes while preserving critical semantic information within coarse patches. Specifically, we design Spatiotemporal-aware Patch Size Selection (SPSS) that assigns small patches to scenes containing nearby objects to preserve fine details and large patches to background-dominated scenes to reduce computation cost. To further mitigate potential detail loss, Informative Patch Selection (IPS) selects the informative patches for feature refinement, and Cross-Granularity Feature Enhancement (CGFE) injects fine-grained details into selected coarse patches, enriching semantic features. Experiments on the nuScenes and Argoverse 2 validation sets show that SEPatch3D achieves up to \textbf{57\%} faster inference than the StreamPETR baseline and \textbf{20\%} higher efficiency than the state-of-the-art ToC3D-faster, while preserving comparable detection accuracy. Code is available at https://github.com/Mingqj/SEPatch3D.