Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

📄 arXiv: 2603.12091v1 📥 PDF

作者: Xiaojie Gu, Dmitry Ignatov, Radu Timofte

分类: cs.LG, cs.AI

发布日期: 2026-03-12


💡 一句话要点

提出基于反馈记忆的迭代LLM驱动NAS方法,在单GPU上实现资源高效的网络架构搜索。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 大型语言模型 反馈记忆 资源高效 边缘计算

📋 核心要点

  1. 传统神经架构搜索(NAS)计算资源需求巨大,限制了其应用。
  2. 利用LLM迭代生成、评估和改进网络架构,并引入反馈记忆机制,有效利用历史信息。
  3. 在CIFAR-10等数据集上,使用单张GPU进行实验,验证了该方法在资源受限环境下的有效性。

📝 摘要(中文)

本文提出了一种闭环流程,利用大型语言模型(LLM)迭代地生成、评估和改进卷积神经网络架构,用于图像分类,且无需LLM微调,仅需单张消费级GPU。该方法的核心是受马尔可夫链启发的历史反馈记忆:一个包含K=5个最近改进尝试的滑动窗口,保持上下文大小恒定,同时为迭代学习提供足够的信号。与丢弃失败轨迹的先前LLM优化器不同,每个历史条目都是一个结构化的诊断三元组,记录已识别的问题、建议的修改和结果,将代码执行失败视为重要的学习信号。双LLM专业化降低了每次调用的认知负荷:代码生成器产生可执行的PyTorch架构,而提示改进器处理诊断推理。由于LLM和架构训练共享有限的VRAM,因此搜索隐式地偏向于紧凑、硬件高效的模型,适合边缘部署。在CIFAR-10上,DeepSeek-Coder-6.7B从28.2%提高到69.2%,Qwen2.5-7B从50.0%提高到71.5%,GLM-5从43.2%提高到62.0%。完整的2000次迭代搜索在单个RTX 4090上大约需要18个GPU小时,为LLM驱动的NAS建立了一个低成本、可复现且硬件感知的范例,无需云基础设施。

🔬 方法详解

问题定义:现有的神经架构搜索方法通常需要大量的计算资源,这使得它们难以在资源受限的环境中应用,例如边缘设备。此外,基于LLM的NAS方法通常会丢弃失败的架构搜索轨迹,导致信息损失。

核心思路:本文的核心思路是利用LLM的强大代码生成和推理能力,结合反馈记忆机制,迭代地改进网络架构。通过将失败的搜索轨迹也纳入学习过程,并使用双LLM结构,降低了每次迭代的认知负荷,从而在资源受限的环境中实现高效的NAS。

技术框架:该方法采用闭环流程,包含以下主要模块:1) 代码生成器:使用LLM生成PyTorch架构代码。2) 架构评估器:在代理数据集上评估生成的架构的性能。3) 提示改进器:使用LLM分析架构的性能,识别问题并提出改进建议。4) 反馈记忆:存储历史搜索轨迹,包括问题、建议和结果,为后续迭代提供上下文信息。

关键创新:该方法最重要的技术创新点在于引入了反馈记忆机制,将失败的搜索轨迹也纳入学习过程,从而更有效地利用历史信息。此外,双LLM结构(代码生成器和提示改进器)降低了每次迭代的认知负荷,提高了搜索效率。

关键设计:反馈记忆采用滑动窗口机制,保持上下文大小恒定(K=5)。诊断三元组记录问题、建议和结果。使用单epoch代理精度作为快速排序信号。使用小于等于7B参数的预训练LLM。搜索隐式地偏向于紧凑、硬件高效的模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在CIFAR-10数据集上,使用DeepSeek-Coder-6.7B模型,架构精度从28.2%提升至69.2%;使用Qwen2.5-7B模型,精度从50.0%提升至71.5%;使用GLM-5模型,精度从43.2%提升至62.0%。完整的2000次迭代搜索在单个RTX 4090 GPU上仅需约18小时。

🎯 应用场景

该研究成果可应用于边缘计算设备上的模型自动设计,例如智能手机、无人机和物联网设备。通过在资源受限的环境中自动搜索高效的网络架构,可以降低模型部署成本,提高设备性能,并加速AI在各行业的落地。

📄 摘要(原文)

Neural Architecture Search (NAS) automates network design, but conventional methods demand substantial computational resources. We propose a closed-loop pipeline leveraging large language models (LLMs) to iteratively generate, evaluate, and refine convolutional neural network architectures for image classification on a single consumer-grade GPU without LLM fine-tuning. Central to our approach is a historical feedback memory inspired by Markov chains: a sliding window of $K{=}5$ recent improvement attempts keeps context size constant while providing sufficient signal for iterative learning. Unlike prior LLM optimizers that discard failure trajectories, each history entry is a structured diagnostic triple -- recording the identified problem, suggested modification, and resulting outcome -- treating code execution failures as first-class learning signals. A dual-LLM specialization reduces per-call cognitive load: a Code Generator produces executable PyTorch architectures while a Prompt Improver handles diagnostic reasoning. Since both the LLM and architecture training share limited VRAM, the search implicitly favors compact, hardware-efficient models suited to edge deployment. We evaluate three frozen instruction-tuned LLMs (${\leq}7$B parameters) across up to 2000 iterations in an unconstrained open code space, using one-epoch proxy accuracy on CIFAR-10, CIFAR-100, and ImageNette as a fast ranking signal. On CIFAR-10, DeepSeek-Coder-6.7B improves from 28.2% to 69.2%, Qwen2.5-7B from 50.0% to 71.5%, and GLM-5 from 43.2% to 62.0%. A full 2000-iteration search completes in ${\approx}18$ GPU hours on a single RTX~4090, establishing a low-budget, reproducible, and hardware-aware paradigm for LLM-driven NAS without cloud infrastructure.