QVGGT: Post-Training Quantized Visual Geometry Grounded Transformer

作者: Zhizhen Pan, Hesong Wang, Huan Wang

分类: cs.CV

发布日期: 2026-05-29

备注: Accepted by CVPR 2026. Project page: https://ddsacu.github.io/QVGGT/

💡 一句话要点

QVGGT：后训练量化视觉几何Transformer，实现边缘设备上的高效3D重建

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics) 支柱七：动作重定向 (Motion Retargeting)

关键词: 量化 模型压缩 视觉几何Transformer 3D重建 边缘计算

📋 核心要点

VGGT模型参数量巨大，难以在资源受限的边缘设备上部署，限制了其应用。
QVGGT通过分析Transformer块的量化敏感性，采用混合精度量化和令牌过滤，有效压缩模型。
实验表明，QVGGT在保持3D预测精度的同时，显著降低了内存占用并提升了硬件加速效果。

📝 摘要（中文）

视觉几何Grounded Transformer (VGGT) 通过单次前向传播预测相机参数、深度图和点云，极大地推动了直接从图像估计3D属性的研究。然而，其12亿参数的规模严重限制了在无人机和移动AR设备等资源受限平台上的部署。为了解决这个问题，我们提出了 QVGGT，一个专门为压缩 VGGT 而设计的量化框架。我们的方法始于观察到 VGGT 中的 Transformer 块对量化表现出异构的敏感性。因此，我们分析了每个块的量化敏感性，并提出了一种选择性的混合精度策略，为最脆弱的 Transformer 块分配更高的精度。为了解决高方差相机和注册令牌引起的量化误差放大问题，我们进一步引入了带有相机信息补偿的令牌过滤，从激活校准中移除这些异常值，并使用 PCA 导出的全局补偿令牌恢复它们的几何线索。最后，我们开发了一种任务感知的尺度搜索机制，不仅通过层重建，还通过多头监督和相机姿势、深度图和点图之间的跨头几何一致性来评估候选量化尺度。在多个几何感知基准上的大量实验表明，QVGGT 实现了接近无损的 W4A16 量化，在保持所有 3D 预测头准确性的同时，实现了 3~4.9 倍的内存减少和高达 2.8 倍的实际硬件加速。我们的方法使边缘设备上高保真 3D 感知成为可能，从而能够在实际受限环境中实际部署前馈 3D 重建模型。

🔬 方法详解

问题定义：VGGT模型参数量巨大，达到12亿，这使得它难以在资源受限的平台上部署，例如无人机和移动AR设备。现有方法在压缩模型时，可能会导致精度显著下降，尤其是在3D重建这种对几何信息敏感的任务中。因此，如何在大幅压缩模型的同时，保持甚至接近原始模型的精度，是本论文要解决的核心问题。

核心思路：论文的核心思路是针对VGGT中不同Transformer块对量化敏感度不同的特点，采用选择性的混合精度量化策略。同时，为了解决量化过程中高方差的相机和注册令牌带来的误差放大问题，引入了令牌过滤和相机信息补偿机制。此外，还设计了任务感知的尺度搜索方法，以优化量化参数。

技术框架：QVGGT的整体框架主要包含三个阶段：1) 量化敏感性分析：分析VGGT中每个Transformer块对量化的敏感程度。2) 混合精度量化：根据敏感性分析结果，为不同的Transformer块分配不同的量化精度，对敏感的块使用更高的精度。3) 令牌过滤与补偿：过滤掉高方差的相机和注册令牌，并使用PCA导出的全局补偿令牌恢复几何信息。4) 任务感知尺度搜索：通过多头监督和跨头几何一致性来评估和选择最佳的量化尺度。

关键创新：论文的关键创新在于：1) 提出了针对VGGT的混合精度量化策略，能够根据不同Transformer块的敏感性分配不同的量化精度。2) 引入了令牌过滤和相机信息补偿机制，有效解决了量化过程中高方差令牌带来的误差放大问题。3) 设计了任务感知的尺度搜索方法，能够根据3D重建任务的特点，优化量化参数。

关键设计：在混合精度量化中，论文通过实验确定了不同Transformer块的最佳量化精度。在令牌过滤中，使用方差作为过滤标准，并使用PCA对过滤掉的令牌进行补偿。在任务感知尺度搜索中，使用了多头监督损失和跨头几何一致性损失，以保证量化后的模型能够保持原始模型的3D重建精度。

🖼️ 关键图片

📊 实验亮点

QVGGT 在多个几何感知基准上实现了接近无损的 W4A16 量化。具体来说，在保持所有 3D 预测头准确性的同时，实现了 3~4.9 倍的内存减少和高达 2.8 倍的实际硬件加速。这些结果表明，QVGGT 能够有效地压缩 VGGT 模型，并在边缘设备上实现高效的 3D 重建。

🎯 应用场景

QVGGT 的应用场景广泛，包括无人机自主导航、移动AR/VR、机器人视觉、自动驾驶等。通过在边缘设备上实现高效的3D重建，可以为这些应用提供更准确、更实时的环境感知能力，从而提升系统的智能化水平和用户体验。该研究的突破为在资源受限的环境中部署复杂的3D视觉模型铺平了道路。

📄 摘要（原文）

Estimating 3D attributes directly from images has advanced rapidly with the Visual Geometry Grounded Transformer (VGGT), which predicts camera parameters, depth maps, and point clouds in a single forward pass. However, its 1.2B-parameter scale severely limits deployment on resource-constrained platforms such as UAVs and mobile AR devices. To address this limitation, we introduce QVGGT, a tailored quantization framework designed to compress VGGT. Our approach starts from the observation that transformer blocks within VGGT exhibit heterogeneous sensitivity to quantization. We thus analyze per-block quantization sensitivity and propose a selective mixed-precision strategy that allocates higher precision to the most fragile transformer blocks. To address the amplification of quantization error caused by high-variance camera and register tokens, we further introduce token filtering with camera information compensation, which removes these outliers from activation calibration and restores their geometric cues using a PCA-derived global compensation token. Finally, we develop a task-aware scale search mechanism that evaluates candidate quantization scales not only through layer reconstruction but also through multi-head supervision and cross-head geometric consistency among camera poses, depth maps, and point maps. Extensive experiments on multiple geometry perception benchmarks demonstrate that QVGGT achieves near-lossless W4A16 quantization, preserving the accuracy of all 3D prediction heads while delivering 3$\sim$4.9$\times$ memory reduction and up to 2.8$\times$ real hardware speedup over FP32. Our approach makes high-fidelity 3D perception feasible on edge devices, enabling practical deployment of feed-forward 3D reconstruction models in real-world constrained environments.

QVGGT: Post-Training Quantized Visual Geometry Grounded Transformer

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理