L-SWAG: Layer-Sample Wise Activation with Gradients information for Zero-Shot NAS on Vision Transformers

📄 arXiv: 2505.07300v1 📥 PDF

作者: Sofia Casarin, Sergio Escalera, Oswald Lanz

分类: cs.CV

发布日期: 2025-05-12

备注: accepted at CVPR 2025


💡 一句话要点

提出L-SWAG以解决零成本神经架构搜索在视觉变换器中的应用问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 视觉变换器 零成本代理 深度学习 模型优化 L-SWAG LIBRA-NAS 计算机视觉

📋 核心要点

  1. 现有的零成本神经架构搜索方法通常局限于卷积网络,难以适应视觉变换器等新兴架构。
  2. 本文提出L-SWAG度量,能够同时表征卷积和变换器架构,扩展了零成本代理的适用性。
  3. 通过LIBRA-NAS方法,结合不同代理的信息,最终在ImageNet1k上实现了17.0%的测试误差,显著提升了性能。

📝 摘要(中文)

训练无关的神经架构搜索(NAS)有效识别高性能神经网络,利用零成本(ZC)代理。与多次和单次NAS方法不同,ZC-NAS在时间上高效,消除了模型训练的需求,并且具有可解释性。尽管该领域快速发展,现有的最优ZC代理通常局限于成熟的卷积搜索空间。随着大型语言模型的崛起,本文将ZC代理的适用性扩展到视觉变换器(ViTs)。我们提出了一种新的基准,使用Autoformer搜索空间在六个不同任务上进行评估,并提出了层样本级激活与梯度信息(L-SWAG),这是一种新颖的、可推广的度量,能够表征卷积和变换器架构。为了进一步增强ZC-NAS,我们引入了LIBRA-NAS(低信息增益和偏差重对齐),该方法战略性地组合代理,以最佳方式表示特定基准。LIBRA-NAS集成到NAS搜索中,能够在仅0.1 GPU天内识别出在ImageNet1k上具有17.0%测试误差的架构。

🔬 方法详解

问题定义:本文旨在解决现有零成本神经架构搜索(ZC-NAS)方法在视觉变换器(ViTs)架构中的适用性不足的问题。现有方法多集中于卷积网络,限制了其在新兴深度学习模型中的应用。

核心思路:论文提出了一种新的度量L-SWAG,能够有效表征不同类型的神经网络架构,并通过LIBRA-NAS方法结合多种代理的信息,以优化搜索过程。

技术框架:整体架构包括两个主要模块:L-SWAG度量模块和LIBRA-NAS组合模块。L-SWAG用于评估架构性能,而LIBRA-NAS则负责选择和组合不同的代理,以提高搜索效率和准确性。

关键创新:最重要的技术创新在于L-SWAG度量的提出,使得ZC-NAS能够适用于卷积和变换器架构。此外,LIBRA-NAS通过智能组合不同代理的信息,显著提升了搜索性能。

关键设计:在设计中,L-SWAG度量考虑了层级激活和梯度信息,确保了对架构性能的全面评估。LIBRA-NAS则通过低信息增益和偏差重对齐策略,优化了代理的组合方式,提升了最终架构的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,LIBRA-NAS方法在仅0.1 GPU天的时间内,成功识别出在ImageNet1k上具有17.0%测试误差的架构,显著优于传统的进化和基于梯度的NAS技术,展示了其在零成本神经架构搜索中的强大潜力。

🎯 应用场景

该研究的潜在应用领域包括计算机视觉、自然语言处理等多个深度学习任务。通过提高神经架构搜索的效率和准确性,L-SWAG和LIBRA-NAS可以帮助研究人员和工程师更快速地设计出高性能的模型,推动相关技术的进步与应用。

📄 摘要(原文)

Training-free Neural Architecture Search (NAS) efficiently identifies high-performing neural networks using zero-cost (ZC) proxies. Unlike multi-shot and one-shot NAS approaches, ZC-NAS is both (i) time-efficient, eliminating the need for model training, and (ii) interpretable, with proxy designs often theoretically grounded. Despite rapid developments in the field, current SOTA ZC proxies are typically constrained to well-established convolutional search spaces. With the rise of Large Language Models shaping the future of deep learning, this work extends ZC proxy applicability to Vision Transformers (ViTs). We present a new benchmark using the Autoformer search space evaluated on 6 distinct tasks and propose Layer-Sample Wise Activation with Gradients information (L-SWAG), a novel, generalizable metric that characterizes both convolutional and transformer architectures across 14 tasks. Additionally, previous works highlighted how different proxies contain complementary information, motivating the need for a ML model to identify useful combinations. To further enhance ZC-NAS, we therefore introduce LIBRA-NAS (Low Information gain and Bias Re-Alignment), a method that strategically combines proxies to best represent a specific benchmark. Integrated into the NAS search, LIBRA-NAS outperforms evolution and gradient-based NAS techniques by identifying an architecture with a 17.0% test error on ImageNet1k in just 0.1 GPU days.