L-SWAG: Layer-Sample Wise Activation with Gradients information for Zero-Shot NAS on Vision Transformers

作者: Sofia Casarin, Sergio Escalera, Oswald Lanz

分类: cs.CV

发布日期: 2025-05-12

备注: accepted at CVPR 2025

💡 一句话要点

提出L-SWAG以解决零成本神经架构搜索在视觉变换器中的应用问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 视觉变换器 零成本代理 深度学习 模型优化 L-SWAG LIBRA-NAS 计算机视觉

📋 核心要点

现有的零成本神经架构搜索方法通常局限于卷积网络，难以适应视觉变换器等新兴架构。
本文提出L-SWAG度量，能够同时表征卷积和变换器架构，扩展了零成本代理的适用性。
通过LIBRA-NAS方法，结合不同代理的信息，最终在ImageNet1k上实现了17.0%的测试误差，显著提升了性能。

📝 摘要（中文）

训练无关的神经架构搜索（NAS）有效识别高性能神经网络，利用零成本（ZC）代理。与多次和单次NAS方法不同，ZC-NAS在时间上高效，消除了模型训练的需求，并且具有可解释性。尽管该领域快速发展，现有的最优ZC代理通常局限于成熟的卷积搜索空间。随着大型语言模型的崛起，本文将ZC代理的适用性扩展到视觉变换器（ViTs）。我们提出了一种新的基准，使用Autoformer搜索空间在六个不同任务上进行评估，并提出了层样本级激活与梯度信息（L-SWAG），这是一种新颖的、可推广的度量，能够表征卷积和变换器架构。为了进一步增强ZC-NAS，我们引入了LIBRA-NAS（低信息增益和偏差重对齐），该方法战略性地组合代理，以最佳方式表示特定基准。LIBRA-NAS集成到NAS搜索中，能够在仅0.1 GPU天内识别出在ImageNet1k上具有17.0%测试误差的架构。

🔬 方法详解

问题定义：本文旨在解决现有零成本神经架构搜索（ZC-NAS）方法在视觉变换器（ViTs）架构中的适用性不足的问题。现有方法多集中于卷积网络，限制了其在新兴深度学习模型中的应用。

核心思路：论文提出了一种新的度量L-SWAG，能够有效表征不同类型的神经网络架构，并通过LIBRA-NAS方法结合多种代理的信息，以优化搜索过程。

技术框架：整体架构包括两个主要模块：L-SWAG度量模块和LIBRA-NAS组合模块。L-SWAG用于评估架构性能，而LIBRA-NAS则负责选择和组合不同的代理，以提高搜索效率和准确性。

关键创新：最重要的技术创新在于L-SWAG度量的提出，使得ZC-NAS能够适用于卷积和变换器架构。此外，LIBRA-NAS通过智能组合不同代理的信息，显著提升了搜索性能。

关键设计：在设计中，L-SWAG度量考虑了层级激活和梯度信息，确保了对架构性能的全面评估。LIBRA-NAS则通过低信息增益和偏差重对齐策略，优化了代理的组合方式，提升了最终架构的表现。

🖼️ 关键图片

📊 实验亮点

在实验中，LIBRA-NAS方法在仅0.1 GPU天的时间内，成功识别出在ImageNet1k上具有17.0%测试误差的架构，显著优于传统的进化和基于梯度的NAS技术，展示了其在零成本神经架构搜索中的强大潜力。

🎯 应用场景

该研究的潜在应用领域包括计算机视觉、自然语言处理等多个深度学习任务。通过提高神经架构搜索的效率和准确性，L-SWAG和LIBRA-NAS可以帮助研究人员和工程师更快速地设计出高性能的模型，推动相关技术的进步与应用。

📄 摘要（原文）

Training-free Neural Architecture Search (NAS) efficiently identifies high-performing neural networks using zero-cost (ZC) proxies. Unlike multi-shot and one-shot NAS approaches, ZC-NAS is both (i) time-efficient, eliminating the need for model training, and (ii) interpretable, with proxy designs often theoretically grounded. Despite rapid developments in the field, current SOTA ZC proxies are typically constrained to well-established convolutional search spaces. With the rise of Large Language Models shaping the future of deep learning, this work extends ZC proxy applicability to Vision Transformers (ViTs). We present a new benchmark using the Autoformer search space evaluated on 6 distinct tasks and propose Layer-Sample Wise Activation with Gradients information (L-SWAG), a novel, generalizable metric that characterizes both convolutional and transformer architectures across 14 tasks. Additionally, previous works highlighted how different proxies contain complementary information, motivating the need for a ML model to identify useful combinations. To further enhance ZC-NAS, we therefore introduce LIBRA-NAS (Low Information gain and Bias Re-Alignment), a method that strategically combines proxies to best represent a specific benchmark. Integrated into the NAS search, LIBRA-NAS outperforms evolution and gradient-based NAS techniques by identifying an architecture with a 17.0% test error on ImageNet1k in just 0.1 GPU days.

L-SWAG: Layer-Sample Wise Activation with Gradients information for Zero-Shot NAS on Vision Transformers

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理