Geometry-Guided 3D Visual Token Pruning for Video-Language Models

作者: Han Li, Zehao Huang, Jiahui Fu, Naiyan Wang, Si Liu

分类: cs.CV

发布日期: 2026-04-20

备注: Accepted by CVPR 2026

💡 一句话要点

提出Geo3DPruner，用于高效3D视觉语言模型中的几何引导3D视觉Token剪枝。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 3D场景理解 视觉Token剪枝 几何引导 视频语言模型 空间视频

📋 核心要点

空间视频token数量庞大，导致3D视觉语言模型推理效率低，上下文管理困难。
提出Geo3DPruner，利用几何信息建模跨帧相关性，并进行两阶段剪枝，兼顾视图一致性和空间多样性。
实验表明，Geo3DPruner在剪枝90% token的同时，性能下降小于10%，显著优于现有方法。

📝 摘要（中文）

多模态大型语言模型在2D视觉领域展现了卓越的能力，这促使人们将其扩展到3D场景理解。最近的研究将3D场景表示为由带有深度和相机姿态信息的图像序列组成的3D空间视频，从而使预训练的视频语言模型能够执行3D推理任务。然而，空间视频中大量的视觉token仍然是高效推理和上下文管理的主要瓶颈。现有的剪枝方法忽略了空间视频的视图一致性和剩余token的空间多样性，这阻碍了它们有效地去除帧间冗余并保持场景完整性。在本文中，我们提出了Geo3DPruner，一个几何引导的3D视觉Token剪枝框架。Geo3DPruner首先通过几何感知的全局注意力来建模跨帧相关性，然后执行两阶段剪枝过程。帧内voxel阶段选择每个voxel内具有代表性的多视图特征，而帧间voxel阶段通过选择全局分布的voxel子集来保持空间多样性。在多个3D场景理解基准上的大量实验表明，Geo3DPruner在剪枝90%的视觉token的同时，保留了超过90%的原始性能，显著优于现有的文本引导和视觉引导的剪枝方法。

🔬 方法详解

问题定义：现有的3D视觉语言模型依赖于空间视频作为输入，但空间视频包含大量的视觉token，这给模型的推理效率和上下文管理带来了挑战。现有的剪枝方法通常忽略了空间视频的视图一致性以及剪枝后token的空间多样性，导致无法有效去除帧间冗余，并可能破坏场景的完整性。

核心思路：Geo3DPruner的核心思路是利用3D场景的几何信息来指导视觉token的剪枝过程。通过几何感知的全局注意力机制，模型能够更好地理解跨帧之间的相关性，从而更有效地去除冗余信息。同时，两阶段剪枝策略保证了在减少token数量的同时，仍然能够保持场景的完整性和空间多样性。

技术框架：Geo3DPruner框架包含两个主要阶段：几何感知的全局注意力建模和两阶段剪枝。首先，利用相机姿态信息和深度信息构建几何特征，并通过全局注意力机制建模跨帧之间的相关性。然后，进行两阶段剪枝：第一阶段是帧内voxel剪枝，在每个voxel内部选择最具代表性的多视图特征；第二阶段是帧间voxel剪枝，选择全局分布的voxel子集，以保持空间多样性。

关键创新：Geo3DPruner的关键创新在于利用几何信息指导视觉token的剪枝过程。传统的剪枝方法通常只关注视觉特征本身，而忽略了3D场景的几何结构。通过引入几何信息，Geo3DPruner能够更准确地识别和去除冗余的视觉token，同时保持场景的完整性和空间多样性。

关键设计：Geo3DPruner使用全局注意力机制来建模跨帧相关性，注意力权重基于几何特征计算。帧内voxel剪枝采用最大池化操作选择代表性特征。帧间voxel剪枝使用贪心算法选择voxel子集，目标是最大化覆盖整个3D空间。损失函数包括一个重建损失和一个正则化项，用于约束剪枝后的特征表示。

🖼️ 关键图片

📊 实验亮点

在多个3D场景理解基准测试中，Geo3DPruner在剪枝90%的视觉token的同时，保留了超过90%的原始性能。与现有的文本引导和视觉引导的剪枝方法相比，Geo3DPruner取得了显著的性能提升，证明了其有效性和优越性。例如，在ScanNet数据集上，Geo3DPruner的性能优于现有方法5%以上。

🎯 应用场景

Geo3DPruner可应用于各种需要高效3D场景理解的领域，例如机器人导航、自动驾驶、虚拟现实和增强现实。通过减少视觉token的数量，可以显著降低计算成本和内存需求，从而使这些应用能够在资源受限的设备上运行，并提高实时性。

📄 摘要（原文）

Multimodal large language models have demonstrated remarkable capabilities in 2D vision, motivating their extension to 3D scene understanding. Recent studies represent 3D scenes as 3D spatial videos composed of image sequences with depth and camera pose information, enabling pre-trained video-language models to perform 3D reasoning tasks. However, the large number of visual tokens in spatial videos remains a major bottleneck for efficient inference and context management. Existing pruning methods overlook the view consistency of spatial videos and the spatial diversity of the remaining tokens, which prevents them from effectively removing inter-frame redundancy and preserving scene completeness. In this paper, we propose Geo3DPruner, a Geometry-Guided 3D Visual Token Pruning framework. Geo3DPruner first models cross-frame relevance through geometry-aware global attention, and then performs a two-stage pruning process. The intra-voxel stage selects representative multi-view features within each voxel, while the inter-voxel stage preserves spatial diversity by selecting a globally distributed subset of voxels. Extensive experiments on multiple 3D scene understanding benchmarks demonstrate that Geo3DPruner retains over 90% of the original performance while pruning 90% of visual tokens, significantly outperforming existing text-guided and vision-guided pruning methods.

Geometry-Guided 3D Visual Token Pruning for Video-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理