SEKI: Self-Evolution and Knowledge Inspiration based Neural Architecture Search via Large Language Models
作者: Zicheng Cai, Yaohua Tang, Yutao Lai, Hua Wang, Zhi Chen, Hao Chen
分类: cs.CL, cs.AI
发布日期: 2025-02-27
💡 一句话要点
SEKI:基于大语言模型的自进化与知识启发式神经架构搜索
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经架构搜索 大语言模型 自进化 知识提炼 模型优化
📋 核心要点
- 现有NAS方法通常需要大量计算资源或特定领域数据,限制了其应用范围和效率。
- SEKI利用LLM的强大能力,通过自进化和知识提炼两个阶段,在没有领域数据的情况下进行高效的神经架构搜索。
- 实验表明,SEKI在多个数据集和搜索空间中实现了SOTA性能,且计算成本极低,展示了其优越的效率和泛化能力。
📝 摘要(中文)
本文提出了一种新颖的基于大语言模型(LLM)的神经架构搜索(NAS)方法SEKI。受到现代LLM中思维链(CoT)范式的启发,SEKI在两个关键阶段运行:自进化和知识提炼。在自进化阶段,LLM最初缺乏足够的参考示例,因此我们实现了一种迭代改进机制,该机制基于性能反馈来增强架构。随着时间的推移,此过程会积累一个高性能架构的存储库。在知识提炼阶段,LLM分析这些架构中的常见模式,以生成新的、优化的设计。通过结合这两个阶段,SEKI极大地利用了LLM在NAS上的能力,而无需任何特定领域的数据。实验结果表明,SEKI在各种数据集和搜索空间中均实现了最先进(SOTA)的性能,同时仅需0.05 GPU-days,在效率和准确性方面均优于现有方法。此外,SEKI展示了强大的泛化能力,在多个任务中实现了与SOTA竞争的结果。
🔬 方法详解
问题定义:神经架构搜索(NAS)旨在自动发现最优的网络结构。然而,传统的NAS方法通常需要大量的计算资源进行训练和评估,或者依赖于特定领域的数据进行指导,这限制了其应用范围和效率。如何设计一种高效且通用的NAS方法,使其能够在有限的计算资源下,无需特定领域数据,也能搜索到高性能的网络结构,是本文要解决的核心问题。
核心思路:本文的核心思路是利用大语言模型(LLM)的强大推理和泛化能力,模拟人类专家设计网络架构的过程。通过让LLM在自进化过程中学习和积累经验,然后在知识提炼过程中总结和应用这些经验,从而实现高效的神经架构搜索。这种方法借鉴了思维链(CoT)的思想,将复杂的架构设计过程分解为多个步骤,使LLM能够更好地理解和解决问题。
技术框架:SEKI包含两个主要阶段:自进化和知识提炼。在自进化阶段,LLM首先生成一些初始架构,然后根据性能反馈进行迭代改进。具体来说,LLM会分析当前架构的性能,并根据分析结果提出改进建议,例如增加或删除某些层,调整卷积核大小等。然后,将改进后的架构进行训练和评估,并将性能反馈给LLM,以便LLM在下一轮迭代中做出更好的决策。经过多轮迭代后,会积累一个包含大量高性能架构的存储库。在知识提炼阶段,LLM会分析存储库中的架构,提取共同的模式和设计原则,然后利用这些知识生成新的、优化的架构。
关键创新:SEKI的关键创新在于将LLM应用于神经架构搜索,并提出了自进化和知识提炼相结合的框架。与传统的NAS方法相比,SEKI无需特定领域的数据,并且能够利用LLM的强大推理能力进行高效的架构搜索。此外,SEKI的自进化机制能够不断积累经验,提高搜索效率,而知识提炼机制则能够将经验转化为通用的设计原则,提高架构的泛化能力。
关键设计:在自进化阶段,LLM需要根据性能反馈提出改进建议。为了实现这一点,本文设计了一种基于提示(prompt)的机制,让LLM能够理解架构的结构和性能,并生成相应的改进建议。此外,本文还设计了一种奖励函数,用于评估架构的性能,并将其反馈给LLM。在知识提炼阶段,本文使用了一种基于Transformer的模型,用于分析存储库中的架构,并提取共同的模式和设计原则。具体的参数设置和网络结构细节在论文中有更详细的描述。
🖼️ 关键图片
📊 实验亮点
SEKI在多个数据集和搜索空间中实现了SOTA性能,例如在CIFAR-10数据集上,SEKI的性能优于现有的NAS方法,并且仅需0.05 GPU-days的计算资源。此外,SEKI还展示了强大的泛化能力,在多个任务中取得了与SOTA竞争的结果。这些实验结果表明,SEKI是一种高效且通用的神经架构搜索方法。
🎯 应用场景
SEKI具有广泛的应用前景,可以应用于图像分类、目标检测、语义分割等各种计算机视觉任务。此外,SEKI还可以应用于自然语言处理、语音识别等其他领域。由于SEKI无需特定领域的数据,因此可以快速部署到新的任务和数据集上,具有很高的实用价值。未来,SEKI有望成为一种通用的神经架构搜索工具,帮助研究人员和工程师快速设计出高性能的网络结构。
📄 摘要(原文)
We introduce SEKI, a novel large language model (LLM)-based neural architecture search (NAS) method. Inspired by the chain-of-thought (CoT) paradigm in modern LLMs, SEKI operates in two key stages: self-evolution and knowledge distillation. In the self-evolution stage, LLMs initially lack sufficient reference examples, so we implement an iterative refinement mechanism that enhances architectures based on performance feedback. Over time, this process accumulates a repository of high-performance architectures. In the knowledge distillation stage, LLMs analyze common patterns among these architectures to generate new, optimized designs. Combining these two stages, SEKI greatly leverages the capacity of LLMs on NAS and without requiring any domain-specific data. Experimental results show that SEKI achieves state-of-the-art (SOTA) performance across various datasets and search spaces while requiring only 0.05 GPU-days, outperforming existing methods in both efficiency and accuracy. Furthermore, SEKI demonstrates strong generalization capabilities, achieving SOTA-competitive results across multiple tasks.