(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

作者: Tianjin Huang, Fang Meng, Li Shen, Fan Liu, Yulong Pei, Mykola Pechenizkiy, Shiwei Liu, Tianlong Chen

分类: cs.CV, cs.AI

发布日期: 2024-07-24

备注: Under review

💡 一句话要点

提出PASS：利用视觉提示和循环超网络寻找高效结构化稀疏

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 结构化剪枝 视觉提示 循环超网络 模型压缩 通道重要性 数据驱动 神经网络加速

📋 核心要点

现有结构化剪枝方法在评估通道重要性方面存在挑战，忽略了层间依赖。
PASS利用视觉提示捕获通道重要性，通过循环超网络生成高质量结构化稀疏。
实验表明，PASS在多个数据集和网络上优于基线，实现了更高的精度和加速。

📝 摘要（中文）

大规模神经网络在视觉和语言处理等领域表现出卓越性能，但也消耗了大量计算资源。结构化模型剪枝是提高模型效率的重要算法，因为它能产生加速友好的稀疏模式。结构化剪枝的关键问题之一是如何评估通道的重要性。同时，以数据为中心的人工智能表明，基于提示的技术能够使大型语言模型在各种下游任务中实现令人印象深刻的泛化。本文研究了一种有趣的可能性——利用视觉提示来捕获通道重要性并导出高质量的结构化稀疏性。为此，我们提出了一个新颖的算法框架，即PASS。它是一个定制的超网络，以视觉提示和网络权重统计作为输入，并以循环方式输出逐层通道稀疏性。这种设计考虑了层之间固有的通道依赖性。在多个网络架构和六个数据集上的综合实验表明，PASS在定位良好的结构化稀疏性方面具有优越性。例如，在相同的FLOPs水平下，PASS子网络在Food101数据集上实现了1%~3%的更好精度；或者在相似的80%精度下，PASS子网络比基线获得了0.35倍的加速。

🔬 方法详解

问题定义：论文旨在解决结构化剪枝中通道重要性评估的问题。现有方法通常独立评估每一层的通道重要性，忽略了层与层之间通道的依赖关系，导致剪枝后的模型性能下降。此外，如何有效地利用数据信息来指导剪枝过程也是一个挑战。

核心思路：论文的核心思路是利用视觉提示（Visual Prompts）来引导结构化剪枝，并使用循环超网络（Recurrent HyperNetwork）来建模层间的通道依赖关系。通过视觉提示，模型可以学习到哪些通道对于特定任务更重要，从而指导剪枝过程。循环超网络则可以学习到层与层之间通道的依赖关系，从而更好地保留重要的通道。

技术框架：PASS框架包含两个主要模块：视觉提示编码器和循环超网络。首先，视觉提示编码器将输入的视觉提示编码成一个向量表示。然后，循环超网络以该向量表示和网络权重统计信息作为输入，以循环的方式生成每一层的通道稀疏度。循环超网络考虑了层间的依赖关系，因此可以生成更有效的稀疏模式。

关键创新：PASS的关键创新在于：1) 利用视觉提示来指导结构化剪枝，这是一种数据驱动的剪枝方法；2) 使用循环超网络来建模层间的通道依赖关系，从而生成更有效的稀疏模式。这种方法不同于传统的基于权重的剪枝方法，它更加关注数据的重要性，并且能够更好地保留重要的通道。

关键设计：循环超网络使用LSTM作为循环单元，输入包括视觉提示编码向量和当前层的权重统计信息（例如，权重的均值和方差）。LSTM的输出用于生成当前层的通道稀疏度。损失函数包括一个性能损失项和一个稀疏性约束项。性能损失项用于保证剪枝后的模型性能，稀疏性约束项用于鼓励模型生成稀疏的结构。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PASS在多个数据集和网络架构上都优于现有的结构化剪枝方法。例如，在Food101数据集上，PASS子网络在相同的FLOPs水平下，比基线方法提高了1%~3%的精度。在保持80%精度的前提下，PASS子网络比基线方法获得了0.35倍的加速。这些结果表明，PASS能够有效地定位良好的结构化稀疏，并提高模型的效率。

🎯 应用场景

PASS方法可应用于各种需要模型压缩和加速的场景，例如移动设备上的图像识别、视频分析和自然语言处理。通过减少模型的大小和计算量，PASS可以提高模型的部署效率，降低功耗，并使其能够在资源受限的设备上运行。该方法还有助于训练更大规模的模型，因为剪枝可以减少训练所需的计算资源。

📄 摘要（原文）

Large-scale neural networks have demonstrated remarkable performance in different domains like vision and language processing, although at the cost of massive computation resources. As illustrated by compression literature, structural model pruning is a prominent algorithm to encourage model efficiency, thanks to its acceleration-friendly sparsity patterns. One of the key questions of structural pruning is how to estimate the channel significance. In parallel, work on data-centric AI has shown that prompting-based techniques enable impressive generalization of large language models across diverse downstream tasks. In this paper, we investigate a charming possibility - \textit{leveraging visual prompts to capture the channel importance and derive high-quality structural sparsity}. To this end, we propose a novel algorithmic framework, namely \texttt{PASS}. It is a tailored hyper-network to take both visual prompts and network weight statistics as input, and output layer-wise channel sparsity in a recurrent manner. Such designs consider the intrinsic channel dependency between layers. Comprehensive experiments across multiple network architectures and six datasets demonstrate the superiority of \texttt{PASS} in locating good structural sparsity. For example, at the same FLOPs level, \texttt{PASS} subnetworks achieve $1\%\sim 3\%$ better accuracy on Food101 dataset; or with a similar performance of $80\%$ accuracy, \texttt{PASS} subnetworks obtain $0.35\times$ more speedup than the baselines.

(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理