From Memorization to Creativity: LLM as a Designer of Novel Neural-Architectures
作者: Waleed Khalid, Dmitry Ignatov, Radu Timofte
分类: cs.LG, cs.CV
发布日期: 2026-01-06
💡 一句话要点
提出基于LLM的闭环神经架构设计框架,实现从记忆到创造的飞跃。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经架构搜索 大型语言模型 代码生成 闭环反馈 自动化机器学习
📋 核心要点
- 现有神经架构搜索方法计算成本高昂,且难以保证生成架构的结构新颖性,缺乏从经验中学习的能力。
- 利用LLM的代码生成能力,构建闭环反馈系统,通过性能评估和结构过滤,迭代优化LLM的架构设计能力。
- 实验表明,该方法显著提升了LLM生成有效架构的比例和性能,并能创造出训练数据中不存在的新颖架构。
📝 摘要(中文)
大型语言模型(LLM)在程序合成方面表现出色,但其自主探索神经架构设计的能力——在语法可靠性、性能和结构新颖性之间取得平衡——仍未得到充分研究。本文通过将面向代码的LLM置于闭环合成框架中来解决这个问题,分析了其在22个监督微调周期中的演变。该模型合成PyTorch卷积网络,这些网络经过验证,通过低保真性能信号(单epoch准确率)进行评估,并使用MinHash-Jaccard准则进行过滤以防止结构冗余。高性能、新颖的架构被转换为提示-代码对,用于通过参数高效的LoRA适配进行迭代微调,并从LEMUR数据集初始化。在各个周期中,LLM内化了经验架构先验,成为一个强大的生成器。有效生成率稳定在50.6%(峰值为74.5%),而平均首次epoch准确率从28.06%上升到50.99%,超过40%准确率的候选架构比例从2.04%增长到96.81%。分析证实,该模型超越了复制现有模式,合成了455个原始语料库中不存在的高性能架构。通过将代码合成建立在执行反馈的基础上,这项工作为将随机生成器转变为自主、性能驱动的神经设计师提供了一个可扩展的蓝图,证明了LLM可以内化经验性的、非文本的奖励,从而超越其训练数据。
🔬 方法详解
问题定义:现有神经架构搜索(NAS)方法通常需要大量的计算资源进行架构评估,并且难以保证搜索到的架构具有足够的创新性。此外,传统的NAS方法往往缺乏从历史经验中学习和改进的能力,导致搜索效率低下。
核心思路:本文的核心思路是利用大型语言模型(LLM)强大的代码生成能力,将其作为一个神经架构的设计师。通过构建一个闭环的反馈系统,LLM可以根据生成的架构的性能反馈不断学习和改进,从而实现自主的神经架构设计。这种方法能够有效地利用LLM的知识和推理能力,同时避免了传统NAS方法的高计算成本和低效率问题。
技术框架:该方法的技术框架主要包括以下几个模块:1) LLM代码生成器:负责生成PyTorch卷积神经网络的代码。2) 架构验证与评估:对生成的架构进行语法验证,并使用低保真性能信号(单epoch准确率)进行评估。3) 结构过滤:使用MinHash-Jaccard准则过滤掉结构冗余的架构,保证架构的多样性。4) 迭代微调:将高性能、新颖的架构转换为提示-代码对,用于通过参数高效的LoRA适配对LLM进行迭代微调。
关键创新:该方法最重要的技术创新点在于将LLM作为一个自主的神经架构设计师,并通过闭环反馈系统使其能够从经验中学习和改进。与传统的NAS方法相比,该方法能够更有效地利用LLM的知识和推理能力,并且能够生成更具创新性的架构。此外,该方法还提出了一种基于MinHash-Jaccard准则的结构过滤方法,能够有效地保证架构的多样性。
关键设计:在LLM的微调过程中,使用了参数高效的LoRA适配方法,能够有效地减少计算成本。在架构评估过程中,使用了单epoch准确率作为低保真性能信号,能够在保证评估效率的同时,提供一定的性能参考。此外,还使用了MinHash-Jaccard准则来衡量架构之间的结构相似性,并根据相似性进行过滤。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过22个周期的迭代微调,LLM的有效生成率稳定在50.6%(峰值为74.5%),平均首次epoch准确率从28.06%上升到50.99%,超过40%准确率的候选架构比例从2.04%增长到96.81%。此外,该方法还合成了455个原始语料库中不存在的高性能架构,证明了LLM能够超越其训练数据,创造出新的架构。
🎯 应用场景
该研究成果可应用于自动化机器学习(AutoML)领域,降低神经架构设计的门槛,加速新模型的开发。通过LLM自主设计,可以探索更广泛的架构空间,发现人工难以设计的创新结构,从而提升模型性能,应用于图像识别、自然语言处理等多种任务。
📄 摘要(原文)
Large language models (LLMs) excel in program synthesis, yet their ability to autonomously navigate neural architecture design--balancing syntactic reliability, performance, and structural novelty--remains underexplored. We address this by placing a code-oriented LLM within a closed-loop synthesis framework, analyzing its evolution over 22 supervised fine-tuning cycles. The model synthesizes PyTorch convolutional networks which are validated, evaluated via low-fidelity performance signals (single-epoch accuracy), and filtered using a MinHash-Jaccard criterion to prevent structural redundancy. High-performing, novel architectures are converted into prompt-code pairs for iterative fine-tuning via parameter-efficient LoRA adaptation, initialized from the LEMUR dataset. Across cycles, the LLM internalizes empirical architectural priors, becoming a robust generator. The valid generation rate stabilizes at 50.6 percent (peaking at 74.5 percent), while mean first-epoch accuracy rises from 28.06 percent to 50.99 percent, and the fraction of candidates exceeding 40 percent accuracy grows from 2.04 percent to 96.81 percent. Analyses confirm the model moves beyond replicating existing motifs, synthesizing 455 high-performing architectures absent from the original corpus. By grounding code synthesis in execution feedback, this work provides a scalable blueprint for transforming stochastic generators into autonomous, performance-driven neural designers, establishing that LLMs can internalize empirical, non-textual rewards to transcend their training data.