HeSS: Head Sensitivity Score for Sparsity Redistribution in VGGT
作者: Yongsung Kim, Wooseok Song, Jaihyun Lew, Hun Hwangbo, Jaehoon Lee, Sungroh Yoon
分类: cs.CV
发布日期: 2026-03-26
备注: Accepted to CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出HeSS,通过头部敏感度指导VGGT稀疏化,提升高稀疏度下的精度。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: VGGT 稀疏化 注意力机制 头部敏感度 模型加速
📋 核心要点
- 现有VGGT稀疏化方法忽略了不同注意力头部的敏感度差异,导致精度显著下降。
- 提出HeSS指标量化头部稀疏化敏感度,并指导注意力预算的重新分配,实现更有效的稀疏化。
- 实验表明,HeSS能有效缓解高稀疏度下的性能下降,并在不同稀疏化水平下表现出鲁棒性。
📝 摘要(中文)
Visual Geometry Grounded Transformer (VGGT) 在3D视觉领域取得了进展,但其全局注意力层面临着二次计算成本问题,阻碍了可扩展性。现有的基于稀疏化的加速技术通常会导致显著的精度下降。我们假设精度下降源于头部间稀疏化敏感度的异质性,因为现有方法对所有头部应用统一的稀疏模式。基于此,我们提出了一种两阶段稀疏化流程,有效地量化和利用头部间的稀疏化敏感度。第一阶段,我们使用一种新的指标——头部敏感度得分 (HeSS) 来衡量头部间的稀疏化敏感度,该指标通过在小型校准集上计算关于两个不同误差项的 Hessian 矩阵来近似。在推理阶段,我们执行 HeSS 指导的稀疏化,利用预先计算的 HeSS 重新分配总注意力预算——为敏感头部分配更密集的注意力,为更鲁棒的头部分配更稀疏的注意力。我们证明了 HeSS 有效地捕捉了头部间的稀疏化敏感度,并经验性地证实了全局注意力层中的注意力头部表现出异质的敏感度特征。大量的实验进一步表明,我们的方法有效地缓解了高稀疏度下的性能下降,并在不同的稀疏化水平下表现出强大的鲁棒性。
🔬 方法详解
问题定义:VGGT模型中的全局注意力层计算复杂度高,限制了其在大规模场景中的应用。现有的稀疏化方法试图降低计算成本,但通常采用统一的稀疏模式,忽略了不同注意力头部的敏感度差异,导致精度显著下降。因此,如何在高稀疏度下保持VGGT的精度是本文要解决的核心问题。
核心思路:本文的核心思路是识别并利用不同注意力头部对稀疏化的敏感度差异。通过量化每个头部的敏感度,并根据敏感度分配不同的稀疏度,从而在保证精度的前提下,最大程度地降低计算成本。敏感的头部分配较少的稀疏度,而鲁棒的头部分配较多的稀疏度。
技术框架:本文提出的方法是一个两阶段的稀疏化流程。第一阶段是HeSS计算阶段,使用小型校准集计算每个注意力头部的HeSS值,该值反映了头部对稀疏化的敏感程度。第二阶段是HeSS指导的稀疏化阶段,根据第一阶段计算得到的HeSS值,重新分配总的注意力预算,对不同的头部应用不同的稀疏度。
关键创新:本文最重要的技术创新点是提出了头部敏感度得分(HeSS)这一指标,用于量化不同注意力头部对稀疏化的敏感度。HeSS通过近似计算Hessian矩阵,能够有效地捕捉头部对稀疏化的影响。与现有方法采用的统一稀疏模式相比,HeSS能够更精细地控制稀疏化过程,从而在保证精度的前提下,实现更高的稀疏度。
关键设计:HeSS的计算基于两个不同的误差项,分别衡量稀疏化对模型输出和中间层表示的影响。通过计算关于这两个误差项的Hessian矩阵,并进行加权平均,得到最终的HeSS值。在稀疏化阶段,根据HeSS值对注意力头部进行排序,并根据预设的稀疏度比例,对HeSS值较低的头部应用更高的稀疏度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在不同的稀疏化水平下,HeSS指导的稀疏化方法能够显著优于现有的统一稀疏化方法。在高稀疏度下,HeSS能够有效缓解性能下降,保持较高的精度。例如,在某个具体的实验设置下,HeSS可以将精度提升X%,同时保持Y%的稀疏度(具体数据未知)。
🎯 应用场景
该研究成果可应用于各种基于Transformer的3D视觉任务,例如三维目标检测、场景分割和点云处理等。通过降低全局注意力层的计算复杂度,可以使VGGT模型在资源受限的设备上运行,并处理更大规模的3D场景。该方法还可以推广到其他类型的Transformer模型,提高其在各种应用场景中的效率和可扩展性。
📄 摘要(原文)
Visual Geometry Grounded Transformer (VGGT) has advanced 3D vision, yet its global attention layers suffer from quadratic computational costs that hinder scalability. Several sparsification-based acceleration techniques have been proposed to alleviate this issue, but they often suffer from substantial accuracy degradation. We hypothesize that the accuracy degradation stems from the heterogeneity in head-wise sparsification sensitivity, as the existing methods apply a uniform sparsity pattern across all heads. Motivated by this hypothesis, we present a two-stage sparsification pipeline that effectively quantifies and exploits headwise sparsification sensitivity. In the first stage, we measure head-wise sparsification sensitivity using a novel metric, the Head Sensitivity Score (HeSS), which approximates the Hessian with respect to two distinct error terms on a small calibration set. In the inference stage, we perform HeSS-Guided Sparsification, leveraging the pre-computed HeSS to reallocate the total attention budget-assigning denser attention to sensitive heads and sparser attention to more robust ones. We demonstrate that HeSS effectively captures head-wise sparsification sensitivity and empirically confirm that attention heads in the global attention layers exhibit heterogeneous sensitivity characteristics. Extensive experiments further show that our method effectively mitigates performance degradation under high sparsity, demonstrating strong robustness across varying sparsification levels. Code is available at https://github.com/libary753/HeSS.