Not All Tasks Quantize Equally: Fisher-Guided Quantization for Visual Geometry Transformer

📄 arXiv: 2605.15828v1 📥 PDF

作者: Yipu Zhang, Jintao Cheng, Weilun Feng, Jiehao Luo, Chuanguang Yang, Zhulin An, Yongjun Xu, Wei Zhang

分类: cs.CV

发布日期: 2026-05-15


💡 一句话要点

提出Fisher引导量化(FGQ)方法,解决视觉几何Transformer中多任务量化敏感度差异问题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 后训练量化 视觉几何Transformer Fisher信息矩阵 模型压缩 3D重建

📋 核心要点

  1. 现有3D重建模型量化方法忽略了不同任务、Transformer块和通道对量化误差的敏感度差异。
  2. FGQ利用Fisher信息矩阵量化不同任务、块和通道的敏感度,并融入可学习仿射变换中。
  3. 实验表明,FGQ在VGGT上优于现有量化方法,在4比特量化下实现了高达39%的相对改进。

📝 摘要(中文)

本文提出了一种针对视觉几何基础Transformer(VGGT)的Fisher引导量化(FGQ)方法,用于解决前馈3D重建模型在设备端部署时面临的内存和计算开销问题。现有PTQ方法主要关注处理重尾激活分布和构建多样化校准数据集,但忽略了模型中不同Transformer块和隐藏通道对不同几何任务的贡献差异,导致量化误差敏感度不一致。FGQ利用对角Fisher信息矩阵量化任务、块和通道间的敏感度差异,并将其融入可学习仿射变换中,以更好地保留对每个任务至关重要的通道和块。在相机姿态估计、点云重建和深度估计等任务上的实验表明,FGQ始终优于最先进的量化基线,在4比特量化下实现了高达39%的相对改进。

🔬 方法详解

问题定义:视觉几何Transformer (VGGT) 等前馈3D重建模型参数量巨大,给设备端部署带来挑战。现有后训练量化 (PTQ) 方法主要关注处理激活分布和构建校准数据集,忽略了模型内部不同部分对不同任务的敏感度差异,导致量化精度下降。

核心思路:核心思想是根据不同任务、Transformer块和通道对量化误差的敏感度进行差异化量化。通过Fisher信息矩阵来衡量这种敏感度,并将其用于指导量化过程,从而更好地保留对重要任务至关重要的信息。

技术框架:FGQ方法主要包含以下几个步骤:1) 使用校准数据集运行前馈3D重建模型;2) 计算对角Fisher信息矩阵,以量化不同任务、块和通道的敏感度;3) 将这些敏感度信息融入到可学习仿射变换中;4) 使用校准数据集对量化后的模型进行微调。

关键创新:关键创新在于利用Fisher信息矩阵来指导量化过程,从而实现对不同任务、块和通道的差异化量化。与现有方法相比,FGQ能够更好地保留对重要任务至关重要的信息,从而提高量化模型的精度。

关键设计:FGQ的关键设计包括:1) 使用对角Fisher信息矩阵来降低计算复杂度;2) 将敏感度信息融入到可学习仿射变换中,以便在量化过程中更好地保留重要信息;3) 使用校准数据集对量化后的模型进行微调,以进一步提高精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FGQ在相机姿态估计、点云重建和深度估计等任务上进行了广泛的实验,结果表明FGQ始终优于最先进的量化基线。在VGGT模型上,FGQ在4比特量化下实现了高达39%的相对改进,证明了其有效性。

🎯 应用场景

该研究成果可应用于各种需要轻量化3D视觉模型的场景,例如移动机器人、增强现实/虚拟现实(AR/VR)设备、自动驾驶等。通过降低模型大小和计算复杂度,FGQ能够使这些应用在资源受限的设备上运行,从而扩展了3D视觉技术的应用范围。

📄 摘要(原文)

Feed-forward 3D reconstruction models, represented by Visual Geometry Grounded Transformer (VGGT), jointly predict multiple visual geometry tasks such as depth estimation, camera pose prediction, and point cloud reconstruction in a single forward pass. They have been widely adopted in 3D vision applications, but their billion-scale parameters bring substantial memory and computation overhead, posing challenges for on-device deployment. Post-Training Quantization (PTQ) is an effective technique to reduce this overhead. Existing PTQ methods for feed-forward 3D models mainly focus on handling heavy-tailed activation distributions and constructing diverse calibration datasets. However, we observe that feed-forward 3D models predict multiple geometric attributes through a shared backbone, where different transformer blocks and hidden channels contribute distinctly to each task, resulting in substantially different sensitivities to quantization errors across tasks, blocks, and channels. Consequently, treating all tasks equally over-emphasizes insensitive tasks and causes significant accuracy loss on the sensitive ones. To address this issue, we propose Fisher-Guided Quantization (FGQ) for feed-forward 3D reconstruction models. Specifically, FGQ uses the diagonal Fisher information matrix to quantify the different sensitivities across tasks, blocks, and channels, and incorporates these sensitivities into the Learnable Affine Transformation during calibration to better preserve the channels and blocks most critical to each task. Extensive experiments across camera pose estimation, point map reconstruction, and depth estimation show that FGQ consistently outperforms state-of-the-art quantization baselines on VGGT, achieving up to 39% relative improvement under the 4-bit quantization.