QVGGT: Post-Training Quantized Visual Geometry Grounded Transformer

📄 arXiv: 2605.31124v1 📥 PDF

作者: Zhizhen Pan, Hesong Wang, Huan Wang

分类: cs.CV

发布日期: 2026-05-29

备注: Accepted by CVPR 2026. Project page: https://ddsacu.github.io/QVGGT/


💡 一句话要点

QVGGT:后训练量化视觉几何Transformer,实现边缘设备上的高效3D重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)

关键词: 量化 模型压缩 视觉几何Transformer 3D重建 边缘计算

📋 核心要点

  1. VGGT模型参数量巨大,难以在资源受限的边缘设备上部署,限制了其应用。
  2. QVGGT通过分析Transformer块的量化敏感性,采用混合精度量化和令牌过滤,有效压缩模型。
  3. 实验表明,QVGGT在保持3D预测精度的同时,显著降低了内存占用并提升了硬件加速效果。

📝 摘要(中文)

视觉几何Grounded Transformer (VGGT) 通过单次前向传播预测相机参数、深度图和点云,极大地推动了直接从图像估计3D属性的研究。然而,其12亿参数的规模严重限制了在无人机和移动AR设备等资源受限平台上的部署。为了解决这个问题,我们提出了 QVGGT,一个专门为压缩 VGGT 而设计的量化框架。我们的方法始于观察到 VGGT 中的 Transformer 块对量化表现出异构的敏感性。因此,我们分析了每个块的量化敏感性,并提出了一种选择性的混合精度策略,为最脆弱的 Transformer 块分配更高的精度。为了解决高方差相机和注册令牌引起的量化误差放大问题,我们进一步引入了带有相机信息补偿的令牌过滤,从激活校准中移除这些异常值,并使用 PCA 导出的全局补偿令牌恢复它们的几何线索。最后,我们开发了一种任务感知的尺度搜索机制,不仅通过层重建,还通过多头监督和相机姿势、深度图和点图之间的跨头几何一致性来评估候选量化尺度。在多个几何感知基准上的大量实验表明,QVGGT 实现了接近无损的 W4A16 量化,在保持所有 3D 预测头准确性的同时,实现了 3~4.9 倍的内存减少和高达 2.8 倍的实际硬件加速。我们的方法使边缘设备上高保真 3D 感知成为可能,从而能够在实际受限环境中实际部署前馈 3D 重建模型。

🔬 方法详解

问题定义:VGGT模型参数量巨大,达到12亿,这使得它难以在资源受限的平台上部署,例如无人机和移动AR设备。现有方法在压缩模型时,可能会导致精度显著下降,尤其是在3D重建这种对几何信息敏感的任务中。因此,如何在大幅压缩模型的同时,保持甚至接近原始模型的精度,是本论文要解决的核心问题。

核心思路:论文的核心思路是针对VGGT中不同Transformer块对量化敏感度不同的特点,采用选择性的混合精度量化策略。同时,为了解决量化过程中高方差的相机和注册令牌带来的误差放大问题,引入了令牌过滤和相机信息补偿机制。此外,还设计了任务感知的尺度搜索方法,以优化量化参数。

技术框架:QVGGT的整体框架主要包含三个阶段:1) 量化敏感性分析:分析VGGT中每个Transformer块对量化的敏感程度。2) 混合精度量化:根据敏感性分析结果,为不同的Transformer块分配不同的量化精度,对敏感的块使用更高的精度。3) 令牌过滤与补偿:过滤掉高方差的相机和注册令牌,并使用PCA导出的全局补偿令牌恢复几何信息。4) 任务感知尺度搜索:通过多头监督和跨头几何一致性来评估和选择最佳的量化尺度。

关键创新:论文的关键创新在于:1) 提出了针对VGGT的混合精度量化策略,能够根据不同Transformer块的敏感性分配不同的量化精度。2) 引入了令牌过滤和相机信息补偿机制,有效解决了量化过程中高方差令牌带来的误差放大问题。3) 设计了任务感知的尺度搜索方法,能够根据3D重建任务的特点,优化量化参数。

关键设计:在混合精度量化中,论文通过实验确定了不同Transformer块的最佳量化精度。在令牌过滤中,使用方差作为过滤标准,并使用PCA对过滤掉的令牌进行补偿。在任务感知尺度搜索中,使用了多头监督损失和跨头几何一致性损失,以保证量化后的模型能够保持原始模型的3D重建精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

QVGGT 在多个几何感知基准上实现了接近无损的 W4A16 量化。具体来说,在保持所有 3D 预测头准确性的同时,实现了 3~4.9 倍的内存减少和高达 2.8 倍的实际硬件加速。这些结果表明,QVGGT 能够有效地压缩 VGGT 模型,并在边缘设备上实现高效的 3D 重建。

🎯 应用场景

QVGGT 的应用场景广泛,包括无人机自主导航、移动AR/VR、机器人视觉、自动驾驶等。通过在边缘设备上实现高效的3D重建,可以为这些应用提供更准确、更实时的环境感知能力,从而提升系统的智能化水平和用户体验。该研究的突破为在资源受限的环境中部署复杂的3D视觉模型铺平了道路。

📄 摘要(原文)

Estimating 3D attributes directly from images has advanced rapidly with the Visual Geometry Grounded Transformer (VGGT), which predicts camera parameters, depth maps, and point clouds in a single forward pass. However, its 1.2B-parameter scale severely limits deployment on resource-constrained platforms such as UAVs and mobile AR devices. To address this limitation, we introduce QVGGT, a tailored quantization framework designed to compress VGGT. Our approach starts from the observation that transformer blocks within VGGT exhibit heterogeneous sensitivity to quantization. We thus analyze per-block quantization sensitivity and propose a selective mixed-precision strategy that allocates higher precision to the most fragile transformer blocks. To address the amplification of quantization error caused by high-variance camera and register tokens, we further introduce token filtering with camera information compensation, which removes these outliers from activation calibration and restores their geometric cues using a PCA-derived global compensation token. Finally, we develop a task-aware scale search mechanism that evaluates candidate quantization scales not only through layer reconstruction but also through multi-head supervision and cross-head geometric consistency among camera poses, depth maps, and point maps. Extensive experiments on multiple geometry perception benchmarks demonstrate that QVGGT achieves near-lossless W4A16 quantization, preserving the accuracy of all 3D prediction heads while delivering 3$\sim$4.9$\times$ memory reduction and up to 2.8$\times$ real hardware speedup over FP32. Our approach makes high-fidelity 3D perception feasible on edge devices, enabling practical deployment of feed-forward 3D reconstruction models in real-world constrained environments.