The Effects of Grouped Structural Global Pruning of Vision Transformers on Domain Generalisation

作者: Hamza Riaz, Alan F. Smeaton

分类: cs.CV, cs.LG

发布日期: 2025-04-05

备注: 9 pages

💡 一句话要点

提出分组结构化剪枝方法，提升Vision Transformer在领域泛化任务中的效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Vision Transformer 领域泛化 模型剪枝 结构化剪枝 模型压缩 依赖图分析 深度学习

📋 核心要点

领域泛化任务中，部署大型Vision Transformer面临计算资源有限的挑战。
提出分组结构化剪枝方法，通过依赖图分析移除冗余的神经元组、权重组等。
实验表明，该方法在精度损失很小的情况下，显著提升了推理速度和微调时间。

📝 摘要（中文）

本文提出了一种新颖的分组结构化剪枝方法，用于预训练的Vision Transformer（ViT、BeiT和DeiT），并在PACS和Office-Home领域泛化（DG）基准上进行了评估。该方法利用依赖图分析来识别和移除Transformer中冗余的神经元、权重、滤波器或注意力头组，并使用一系列选择指标。在50%、75%和95%的剪枝率下应用分组结构化剪枝，然后在DG基准中选择的分布上对模型进行微调，以评估其在DG任务中的整体性能。结果表明，在精度和DG任务性能方面只有极小的折衷，但推理速度和微调时间却得到了显著提高。例如，在PACS基准上，使用Hessian指标将ViT、BeiT和DeiT模型剪枝50%，分别导致精度下降仅为-2.94%、-1.42%和-1.72%，同时实现了2.5倍、1.81倍和2.15倍的速度提升。这些发现证明了该方法在平衡模型效率与领域泛化性能方面的有效性。

🔬 方法详解

问题定义：论文旨在解决领域泛化任务中，大型Vision Transformer模型计算资源需求高的问题。现有方法在模型压缩方面，可能导致领域泛化性能的显著下降，或者无法充分利用模型结构的冗余性。

核心思路：核心思路是通过分组结构化剪枝，在保证领域泛化性能的前提下，尽可能地减少模型的计算量。通过依赖图分析，识别并移除模型中冗余的结构单元（如神经元组、权重组、注意力头等），从而实现模型压缩。

技术框架：该方法主要包含以下几个阶段：1) 对预训练的Vision Transformer模型进行依赖图分析，构建模型结构的依赖关系；2) 基于依赖图，识别可以被安全移除的结构单元组；3) 根据选择指标（如Hessian矩阵）对结构单元组的重要性进行排序；4) 根据设定的剪枝率，移除重要性较低的结构单元组；5) 在目标领域数据集上对剪枝后的模型进行微调，恢复模型性能。

关键创新：关键创新在于提出了分组结构化剪枝的概念，并将其应用于Vision Transformer。与传统的非结构化剪枝相比，结构化剪枝更容易在硬件上实现加速，并且能够更好地保持模型的结构信息。分组剪枝则进一步考虑了模型内部的依赖关系，避免了剪枝过程中对模型结构的破坏。

关键设计：论文中使用了多种选择指标来评估结构单元组的重要性，包括Hessian矩阵等。剪枝率是一个关键参数，决定了模型的压缩程度。微调策略也至关重要，需要根据具体任务和数据集进行调整，以恢复剪枝带来的性能损失。论文针对ViT、BeiT和DeiT三种不同的Vision Transformer模型进行了实验，并针对不同模型结构进行了参数调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在PACS基准上，使用Hessian指标将ViT、BeiT和DeiT模型剪枝50%，分别导致精度下降仅为-2.94%、-1.42%和-1.72%，同时实现了2.5倍、1.81倍和2.15倍的速度提升。这些结果表明，该方法能够在保持领域泛化性能的同时，显著提高模型的效率。

🎯 应用场景

该研究成果可应用于各种需要领域泛化能力的计算机视觉任务，例如自动驾驶、医疗图像分析、遥感图像处理等。通过降低模型计算量，可以将其部署在资源受限的设备上，实现边缘计算和实时推理。此外，该方法还可以作为一种通用的模型压缩技术，应用于其他类型的深度学习模型。

📄 摘要（原文）

With the growing sizes of AI models like large language models (LLMs) and vision transformers, deploying them on devices with limited computational resources is a significant challenge particularly when addressing domain generalisation (DG) tasks. This paper introduces a novel grouped structural pruning method for pre-trained vision transformers (ViT, BeiT, and DeiT), evaluated on the PACS and Office-Home DG benchmarks. Our method uses dependency graph analysis to identify and remove redundant groups of neurons, weights, filters, or attention heads within transformers, using a range of selection metrics. Grouped structural pruning is applied at pruning ratios of 50\%, 75\% and 95\% and the models are then fine-tuned on selected distributions from DG benchmarks to evaluate their overall performance in DG tasks. Results show significant improvements in inference speed and fine-tuning time with minimal trade-offs in accuracy and DG task performance. For instance, on the PACS benchmark, pruning ViT, BeiT, and DeiT models by 50\% using the Hessian metric resulted in accuracy drops of only -2.94\%, -1.42\%, and -1.72\%, respectively, while achieving speed boosts of 2.5x, 1.81x, and 2.15x. These findings demonstrate the effectiveness of our approach in balancing model efficiency with domain generalisation performance.

The Effects of Grouped Structural Global Pruning of Vision Transformers on Domain Generalisation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理