TSP3D: Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding
作者: Wenxuan Guo, Xiuwei Xu, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu
分类: cs.CV, cs.LG
发布日期: 2025-02-14 (更新: 2025-03-11)
备注: Accepted at CVPR2025 with a top score
🔗 代码/项目: GITHUB
💡 一句话要点
提出文本引导的稀疏体素剪枝TSP3D,用于高效的3D视觉定位
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D视觉定位 稀疏卷积 文本引导剪枝 体素补全 交叉注意力
📋 核心要点
- 现有3D视觉定位方法,如两阶段或基于点的方法,难以满足实时推理的需求,效率成为瓶颈。
- 提出文本引导剪枝(TGP)和补全式添加(CBA),通过迭代稀疏化和自适应补全,高效融合3D场景和文本特征。
- 实验表明,该方法在推理速度上超越现有方法100% FPS,并在精度上达到SOTA,在多个数据集上取得显著提升。
📝 摘要(中文)
本文提出了一种高效的多层卷积架构用于3D视觉定位。传统方法由于其两阶段或基于点的架构,难以满足实时推理的需求。受到多层全稀疏卷积架构在3D目标检测中成功的启发,我们旨在构建一个遵循该技术路线的新的3D视觉定位框架。然而,由于3D视觉定位任务中3D场景表示应与文本特征深度交互,基于稀疏卷积的架构由于大量的体素特征而效率低下。为此,我们提出了文本引导剪枝(TGP)和基于补全的添加(CBA),通过逐步区域剪枝和目标补全,以高效的方式深度融合3D场景表示和文本特征。具体来说,TGP迭代地稀疏化3D场景表示,从而通过交叉注意力有效地将体素特征与文本特征进行交互。为了减轻剪枝对精细几何信息的影响,CBA通过体素补全自适应地修复过度剪枝的区域,计算开销可忽略不计。与之前的单阶段方法相比,我们的方法实现了最高的推理速度,并且超过了之前最快的方法100%的FPS。即使与两阶段方法相比,我们的方法也实现了最先进的精度,在ScanRefer上Acc@0.5领先+1.13,在NR3D和SR3D上分别领先+2.6和+3.2。代码可在https://github.com/GWxuan/TSP3D获取。
🔬 方法详解
问题定义:3D视觉定位旨在根据给定的文本描述在3D场景中定位目标物体。现有方法,特别是两阶段方法和基于点的方法,计算复杂度高,难以满足实时性要求。基于稀疏卷积的方法虽然在3D目标检测中表现出色,但直接应用于3D视觉定位时,由于需要与文本特征进行深度交互,大量的体素特征导致交互效率低下,成为性能瓶颈。
核心思路:论文的核心思路是通过文本引导的稀疏体素剪枝,逐步减少需要处理的体素数量,从而提高3D场景表示与文本特征交互的效率。同时,为了避免过度剪枝导致的信息损失,采用补全式添加策略,自适应地恢复重要的几何信息。这种剪枝与补全相结合的方式,在保证精度的前提下,显著提升了推理速度。
技术框架:TSP3D框架主要包含以下几个阶段:首先,对3D场景进行体素化表示。然后,利用文本编码器提取文本特征。接着,通过文本引导剪枝(TGP)模块,迭代地稀疏化体素特征,并与文本特征进行交叉注意力交互。最后,使用补全式添加(CBA)模块,自适应地恢复被过度剪枝的区域。整个框架采用端到端的方式进行训练。
关键创新:该论文的关键创新在于提出了文本引导剪枝(TGP)和补全式添加(CBA)相结合的策略。TGP通过文本特征指导体素的剪枝,使得剪枝过程更加智能和高效。CBA则通过自适应的体素补全,有效地缓解了剪枝带来的信息损失。这种剪枝与补全相结合的方式,是与现有方法的本质区别。
关键设计:TGP模块使用交叉注意力机制,将体素特征与文本特征进行融合,并根据融合后的特征计算剪枝mask。CBA模块则根据体素周围的上下文信息,预测需要补全的体素。损失函数包括定位损失和补全损失,共同优化整个网络。具体的网络结构和参数设置在论文中有详细描述,例如交叉注意力的具体实现方式,以及补全模块的网络结构等。
🖼️ 关键图片
📊 实验亮点
TSP3D在ScanRefer、NR3D和SR3D等数据集上取得了state-of-the-art的精度。与之前的单阶段方法相比,推理速度提升了100% FPS,实现了实时推理。在ScanRefer数据集上,Acc@0.5指标提升了+1.13,在NR3D和SR3D数据集上分别提升了+2.6和+3.2。这些结果表明,TSP3D在精度和效率上都具有显著优势。
🎯 应用场景
该研究成果可广泛应用于机器人导航、增强现实、虚拟现实等领域。例如,在机器人导航中,机器人可以根据用户的语音指令,快速准确地定位目标物体,从而实现更智能的人机交互。在AR/VR应用中,可以根据用户的文本描述,快速地在3D场景中定位目标物体,从而提供更沉浸式的用户体验。此外,该方法还可以应用于3D场景理解、智能家居等领域。
📄 摘要(原文)
In this paper, we propose an efficient multi-level convolution architecture for 3D visual grounding. Conventional methods are difficult to meet the requirements of real-time inference due to the two-stage or point-based architecture. Inspired by the success of multi-level fully sparse convolutional architecture in 3D object detection, we aim to build a new 3D visual grounding framework following this technical route. However, as in 3D visual grounding task the 3D scene representation should be deeply interacted with text features, sparse convolution-based architecture is inefficient for this interaction due to the large amount of voxel features. To this end, we propose text-guided pruning (TGP) and completion-based addition (CBA) to deeply fuse 3D scene representation and text features in an efficient way by gradual region pruning and target completion. Specifically, TGP iteratively sparsifies the 3D scene representation and thus efficiently interacts the voxel features with text features by cross-attention. To mitigate the affect of pruning on delicate geometric information, CBA adaptively fixes the over-pruned region by voxel completion with negligible computational overhead. Compared with previous single-stage methods, our method achieves top inference speed and surpasses previous fastest method by 100\% FPS. Our method also achieves state-of-the-art accuracy even compared with two-stage methods, with $+1.13$ lead of Acc@0.5 on ScanRefer, and $+2.6$ and $+3.2$ leads on NR3D and SR3D respectively. The code is available at \href{https://github.com/GWxuan/TSP3D}{https://github.com/GWxuan/TSP3D}.