Design Principle Transfer in Neural Architecture Search via Large Language Models

📄 arXiv: 2408.11330v2 📥 PDF

作者: Xun Zhou, Xingyu Wu, Liang Feng, Zhichao Lu, Kay Chen Tan

分类: cs.LG, cs.CL

发布日期: 2024-08-21 (更新: 2024-12-18)


💡 一句话要点

提出基于大语言模型的神经架构搜索设计原则迁移框架,提升搜索效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 迁移学习 大语言模型 设计原则 自动化机器学习

📋 核心要点

  1. 现有可迁移神经架构搜索方法搜索空间大,效率低,需要评估大量架构。
  2. 利用大语言模型自动推理架构设计原则,并逐步细化,缩小搜索空间。
  3. 实验表明,所提出的LAPT框架在多个任务上优于现有TNAS方法。

📝 摘要(中文)

为了提升神经架构搜索(NAS)在实际场景中的应用性,可迁移神经架构搜索(TNAS)被提出,旨在为多个任务设计高效的神经架构,重用先前搜索过程中积累的架构知识来预热新任务的架构搜索。然而,现有的TNAS方法仍在广泛的搜索空间中进行搜索,需要评估大量的架构。为了克服这一挑战,本文提出了一种新的迁移范式,即设计原则迁移。本文将各种结构组件对架构性能影响的语言描述称为设计原则。这些原则从已建立的架构中学习,然后可以被重用来通过丢弃没有希望的架构来减少搜索空间。在精炼的搜索空间中搜索可以提高新NAS任务的搜索性能和效率。为此,设计了一种基于大语言模型(LLM)辅助的设计原则迁移(LAPT)框架。在LAPT中,LLM被应用于自动推理给定架构集的设计原则,然后应用一种原则适应方法,基于新的搜索结果逐步细化这些原则。实验结果表明,LAPT在大多数任务上可以击败最先进的TNAS方法,并在其他任务上实现相当的性能。

🔬 方法详解

问题定义:现有的可迁移神经架构搜索(TNAS)方法在面对新任务时,仍然需要在庞大的搜索空间中进行探索,导致搜索效率低下,需要评估大量的候选架构。这限制了TNAS在实际应用中的可行性。因此,如何有效地利用已有的架构知识,缩小搜索空间,提高搜索效率,是本文要解决的核心问题。

核心思路:本文的核心思路是引入“设计原则迁移”的概念。设计原则指的是架构中各个结构组件对性能影响的语言描述。通过从已有的高性能架构中学习这些设计原则,可以指导新任务的架构搜索过程,从而避免对大量低效架构的评估,缩小搜索空间,提高搜索效率。利用大语言模型(LLM)强大的推理能力,自动提取和提炼这些设计原则。

技术框架:LAPT框架主要包含两个阶段:设计原则推理和原则适应。在设计原则推理阶段,利用LLM从一组给定的架构中自动推理出设计原则。LLM接收架构的描述作为输入,输出相应的设计原则。在原则适应阶段,根据新任务的搜索结果,逐步细化和调整已有的设计原则,使其更好地适应新任务的需求。这个过程是一个迭代的过程,通过不断地学习和调整,最终得到适用于新任务的优化设计原则。

关键创新:本文的关键创新在于提出了基于LLM的设计原则迁移方法。与传统的TNAS方法相比,本文不是直接迁移架构本身,而是迁移架构背后的设计原则。这种方法更加灵活和通用,可以更好地适应不同的任务。利用LLM自动推理设计原则,避免了人工设计的繁琐和主观性。

关键设计:LAPT框架的关键设计包括:1) 如何有效地利用LLM进行设计原则推理,包括LLM的prompt设计和训练策略;2) 如何设计原则适应方法,使其能够根据新的搜索结果逐步细化和调整设计原则;3) 如何将设计原则应用到架构搜索过程中,例如,通过设计原则来过滤掉不符合要求的架构,或者通过设计原则来指导架构的生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LAPT框架在多个任务上优于现有的最先进的TNAS方法,并在其他任务上取得了相当的性能。这证明了基于LLM的设计原则迁移方法的有效性。具体的性能提升幅度取决于具体的任务和数据集,但总体而言,LAPT能够显著提高搜索效率和性能。

🎯 应用场景

该研究成果可应用于各种需要进行神经架构搜索的领域,例如图像识别、自然语言处理、语音识别等。通过迁移设计原则,可以显著降低搜索成本,加速模型开发过程,并为特定任务定制高性能的神经网络架构。未来,该方法有望推动AI在边缘设备和资源受限环境中的应用。

📄 摘要(原文)

Transferable neural architecture search (TNAS) has been introduced to design efficient neural architectures for multiple tasks, to enhance the practical applicability of NAS in real-world scenarios. In TNAS, architectural knowledge accumulated in previous search processes is reused to warm up the architecture search for new tasks. However, existing TNAS methods still search in an extensive search space, necessitating the evaluation of numerous architectures. To overcome this challenge, this work proposes a novel transfer paradigm, i.e., design principle transfer. In this work, the linguistic description of various structural components' effects on architectural performance is termed design principles. They are learned from established architectures and then can be reused to reduce the search space by discarding unpromising architectures. Searching in the refined search space can boost both the search performance and efficiency for new NAS tasks. To this end, a large language model (LLM)-assisted design principle transfer (LAPT) framework is devised. In LAPT, LLM is applied to automatically reason the design principles from a set of given architectures, and then a principle adaptation method is applied to refine these principles progressively based on the new search results. Experimental results show that LAPT can beat the state-of-the-art TNAS methods on most tasks and achieve comparable performance on others.