Efficient Multi-View 3D Object Detection by Dynamic Token Selection and Fine-Tuning

作者: Danish Nazir, Antoine Hanna-Asaad, Lucas Görnhardt, Jan Piewek, Thorsten Bagdonat, Tim Fingscheidt

分类: cs.CV

发布日期: 2026-04-15

💡 一句话要点

提出动态Token选择与微调方法，高效实现多视角3D目标检测。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多视角3D目标检测 视觉Transformer Token选择 动态Token选择 参数高效微调 计算复杂度降低 NuScenes数据集

📋 核心要点

现有基于ViT的多视角3D目标检测计算复杂度高，且Token选择比例固定，限制了效率。
提出图像Token补偿器与动态层级Token选择，并采用参数高效微调策略，降低计算量。
实验表明，该方法在降低计算复杂度的同时，提升了平均精度和检测分数。

📝 摘要（中文）

现有的多视角三维（3D）目标检测方法广泛采用基于大规模预训练视觉Transformer（ViT）的基础模型作为骨干网络，计算复杂度高。为了解决这个问题，目前最先进的（SOTA） exttt{ToC3D}采用基于自车运动的相关Token选择，以实现高效的基于多视角ViT的3D目标检测。然而，它存在两个关键限制：（1）固定的层级Token选择比例限制了训练和推理过程中的计算效率。（2）需要对ViT骨干网络进行完整的端到端再训练。本文提出了一种图像Token补偿器，并结合Token选择，以加速ViT骨干网络的多视角3D目标检测。与 exttt{ToC3D}不同，我们的方法实现了ViT骨干网络内动态的层级Token选择。此外，我们引入了一种参数高效的微调策略，该策略仅训练所提出的模块，从而将微调参数的数量从超过3亿（M）减少到仅160万。在大型NuScenes数据集上进行的三个多视角3D目标检测方法的实验表明，与目前最先进的 exttt{ToC3D}相比，我们提出的方法降低了48％...55％的计算复杂度（GFLOPs），降低了9％...25％的推理延迟（在 exttt{NVIDIA-GV100} GPU上），同时仍然提高了1.0％...2.8％的平均精度均值和0.4％...1.2％的NuScenes检测分数。

🔬 方法详解

问题定义：论文旨在解决多视角3D目标检测中，基于ViT的骨干网络计算复杂度高的问题。现有方法，如ToC3D，虽然通过Token选择降低了计算量，但其固定的层级Token选择比例限制了效率，并且需要对整个ViT骨干网络进行端到端再训练，参数量巨大。

核心思路：论文的核心思路是通过动态地调整每一层的Token选择比例，并引入图像Token补偿器来弥补被选择掉的Token的信息损失，从而在保证精度的前提下，显著降低计算量。此外，采用参数高效的微调策略，只训练新增模块，避免对整个ViT骨干网络进行微调。

技术框架：整体框架包括：1) ViT骨干网络提取图像特征；2) 图像Token补偿器，用于补偿被选择掉的Token的信息；3) 动态Token选择模块，根据每一层的特征动态地选择Token；4) 检测头，用于进行3D目标检测。整个流程是端到端可训练的。

关键创新：最重要的创新点在于动态层级Token选择和参数高效微调。动态Token选择允许每一层根据其特征的重要性自适应地选择Token，避免了固定比例的限制。参数高效微调通过只训练新增模块，极大地减少了需要微调的参数量，降低了训练成本。

关键设计：图像Token补偿器具体实现未知。动态Token选择模块的设计细节未知，但其核心是根据每一层的特征动态地调整Token选择比例。参数高效微调策略只训练图像Token补偿器和动态Token选择模块，而冻结ViT骨干网络的参数。损失函数采用标准的3D目标检测损失函数。

📊 实验亮点

实验结果表明，与SOTA方法ToC3D相比，该方法在NuScenes数据集上降低了48%-55%的计算复杂度（GFLOPs），降低了9%-25%的推理延迟，同时提高了1.0%-2.8%的平均精度均值和0.4%-1.2%的NuScenes检测分数。参数量从3亿减少到160万。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、智能监控等领域，通过降低计算复杂度，使得多视角3D目标检测能够在资源受限的平台上高效运行，从而加速相关技术的落地和应用。未来的影响在于推动更高效、更实用的3D感知技术发展。

📄 摘要（原文）

Existing multi-view three-dimensional (3D) object detection approaches widely adopt large-scale pre-trained vision transformer (ViT)-based foundation models as backbones, being computationally complex. To address this problem, current state-of-the-art (SOTA) \texttt{ToC3D} for efficient multi-view ViT-based 3D object detection employs ego-motion-based relevant token selection. However, there are two key limitations: (1) The fixed layer-individual token selection ratios limit computational efficiency during both training and inference. (2) Full end-to-end retraining of the ViT backbone is required for the multi-view 3D object detection method. In this work, we propose an image token compensator combined with a token selection for ViT backbones to accelerate multi-view 3D object detection. Unlike \texttt{ToC3D}, our approach enables dynamic layer-wise token selection within the ViT backbone. Furthermore, we introduce a parameter-efficient fine-tuning strategy, which trains only the proposed modules, thereby reducing the number of fine-tuned parameters from more than $300$ million (M) to only $1.6$ M. Experiments on the large-scale NuScenes dataset across three multi-view 3D object detection approaches demonstrate that our proposed method decreases computational complexity (GFLOPs) by $48\%$ ... $55\%$, inference latency (on an \texttt{NVIDIA-GV100} GPU) by $9\%$ ... $25\%$, while still improving mean average precision by $1.0\%$ ... $2.8\%$ absolute and NuScenes detection score by $0.4\%$ ... $1.2\%$ absolute compared to so-far SOTA \texttt{ToC3D}.

Efficient Multi-View 3D Object Detection by Dynamic Token Selection and Fine-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理