Efficient Multi-View 3D Object Detection by Dynamic Token Selection and Fine-Tuning

📄 arXiv: 2604.13586v1 📥 PDF

作者: Danish Nazir, Antoine Hanna-Asaad, Lucas Görnhardt, Jan Piewek, Thorsten Bagdonat, Tim Fingscheidt

分类: cs.CV

发布日期: 2026-04-15


💡 一句话要点

提出动态Token选择与微调方法,高效实现多视角3D目标检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多视角3D目标检测 视觉Transformer Token选择 动态Token选择 参数高效微调 计算复杂度降低 NuScenes数据集

📋 核心要点

  1. 现有基于ViT的多视角3D目标检测计算复杂度高,且Token选择比例固定,限制了效率。
  2. 提出图像Token补偿器与动态层级Token选择,并采用参数高效微调策略,降低计算量。
  3. 实验表明,该方法在降低计算复杂度的同时,提升了平均精度和检测分数。

📝 摘要(中文)

现有的多视角三维(3D)目标检测方法广泛采用基于大规模预训练视觉Transformer(ViT)的基础模型作为骨干网络,计算复杂度高。为了解决这个问题,目前最先进的(SOTA) exttt{ToC3D}采用基于自车运动的相关Token选择,以实现高效的基于多视角ViT的3D目标检测。然而,它存在两个关键限制:(1)固定的层级Token选择比例限制了训练和推理过程中的计算效率。(2)需要对ViT骨干网络进行完整的端到端再训练。本文提出了一种图像Token补偿器,并结合Token选择,以加速ViT骨干网络的多视角3D目标检测。与 exttt{ToC3D}不同,我们的方法实现了ViT骨干网络内动态的层级Token选择。此外,我们引入了一种参数高效的微调策略,该策略仅训练所提出的模块,从而将微调参数的数量从超过3亿(M)减少到仅160万。在大型NuScenes数据集上进行的三个多视角3D目标检测方法的实验表明,与目前最先进的 exttt{ToC3D}相比,我们提出的方法降低了48%...55%的计算复杂度(GFLOPs),降低了9%...25%的推理延迟(在 exttt{NVIDIA-GV100} GPU上),同时仍然提高了1.0%...2.8%的平均精度均值和0.4%...1.2%的NuScenes检测分数。

🔬 方法详解

问题定义:论文旨在解决多视角3D目标检测中,基于ViT的骨干网络计算复杂度高的问题。现有方法,如ToC3D,虽然通过Token选择降低了计算量,但其固定的层级Token选择比例限制了效率,并且需要对整个ViT骨干网络进行端到端再训练,参数量巨大。

核心思路:论文的核心思路是通过动态地调整每一层的Token选择比例,并引入图像Token补偿器来弥补被选择掉的Token的信息损失,从而在保证精度的前提下,显著降低计算量。此外,采用参数高效的微调策略,只训练新增模块,避免对整个ViT骨干网络进行微调。

技术框架:整体框架包括:1) ViT骨干网络提取图像特征;2) 图像Token补偿器,用于补偿被选择掉的Token的信息;3) 动态Token选择模块,根据每一层的特征动态地选择Token;4) 检测头,用于进行3D目标检测。整个流程是端到端可训练的。

关键创新:最重要的创新点在于动态层级Token选择和参数高效微调。动态Token选择允许每一层根据其特征的重要性自适应地选择Token,避免了固定比例的限制。参数高效微调通过只训练新增模块,极大地减少了需要微调的参数量,降低了训练成本。

关键设计:图像Token补偿器具体实现未知。动态Token选择模块的设计细节未知,但其核心是根据每一层的特征动态地调整Token选择比例。参数高效微调策略只训练图像Token补偿器和动态Token选择模块,而冻结ViT骨干网络的参数。损失函数采用标准的3D目标检测损失函数。

📊 实验亮点

实验结果表明,与SOTA方法ToC3D相比,该方法在NuScenes数据集上降低了48%-55%的计算复杂度(GFLOPs),降低了9%-25%的推理延迟,同时提高了1.0%-2.8%的平均精度均值和0.4%-1.2%的NuScenes检测分数。参数量从3亿减少到160万。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能监控等领域,通过降低计算复杂度,使得多视角3D目标检测能够在资源受限的平台上高效运行,从而加速相关技术的落地和应用。未来的影响在于推动更高效、更实用的3D感知技术发展。

📄 摘要(原文)

Existing multi-view three-dimensional (3D) object detection approaches widely adopt large-scale pre-trained vision transformer (ViT)-based foundation models as backbones, being computationally complex. To address this problem, current state-of-the-art (SOTA) \texttt{ToC3D} for efficient multi-view ViT-based 3D object detection employs ego-motion-based relevant token selection. However, there are two key limitations: (1) The fixed layer-individual token selection ratios limit computational efficiency during both training and inference. (2) Full end-to-end retraining of the ViT backbone is required for the multi-view 3D object detection method. In this work, we propose an image token compensator combined with a token selection for ViT backbones to accelerate multi-view 3D object detection. Unlike \texttt{ToC3D}, our approach enables dynamic layer-wise token selection within the ViT backbone. Furthermore, we introduce a parameter-efficient fine-tuning strategy, which trains only the proposed modules, thereby reducing the number of fine-tuned parameters from more than $300$ million (M) to only $1.6$ M. Experiments on the large-scale NuScenes dataset across three multi-view 3D object detection approaches demonstrate that our proposed method decreases computational complexity (GFLOPs) by $48\%$ ... $55\%$, inference latency (on an \texttt{NVIDIA-GV100} GPU) by $9\%$ ... $25\%$, while still improving mean average precision by $1.0\%$ ... $2.8\%$ absolute and NuScenes detection score by $0.4\%$ ... $1.2\%$ absolute compared to so-far SOTA \texttt{ToC3D}.