Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

作者: Xiaojie Gu, Dmitry Ignatov, Radu Timofte

分类: cs.LG, cs.AI

发布日期: 2026-03-12

💡 一句话要点

提出基于反馈记忆的迭代LLM驱动NAS方法，在单GPU上实现资源高效的网络架构搜索。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 大型语言模型 反馈记忆 资源高效 边缘计算

📋 核心要点

传统神经架构搜索（NAS）计算资源需求巨大，限制了其应用。
利用LLM迭代生成、评估和改进网络架构，并引入反馈记忆机制，有效利用历史信息。
在CIFAR-10等数据集上，使用单张GPU进行实验，验证了该方法在资源受限环境下的有效性。

📝 摘要（中文）

本文提出了一种闭环流程，利用大型语言模型（LLM）迭代地生成、评估和改进卷积神经网络架构，用于图像分类，且无需LLM微调，仅需单张消费级GPU。该方法的核心是受马尔可夫链启发的历史反馈记忆：一个包含K=5个最近改进尝试的滑动窗口，保持上下文大小恒定，同时为迭代学习提供足够的信号。与丢弃失败轨迹的先前LLM优化器不同，每个历史条目都是一个结构化的诊断三元组，记录已识别的问题、建议的修改和结果，将代码执行失败视为重要的学习信号。双LLM专业化降低了每次调用的认知负荷：代码生成器产生可执行的PyTorch架构，而提示改进器处理诊断推理。由于LLM和架构训练共享有限的VRAM，因此搜索隐式地偏向于紧凑、硬件高效的模型，适合边缘部署。在CIFAR-10上，DeepSeek-Coder-6.7B从28.2%提高到69.2%，Qwen2.5-7B从50.0%提高到71.5%，GLM-5从43.2%提高到62.0%。完整的2000次迭代搜索在单个RTX 4090上大约需要18个GPU小时，为LLM驱动的NAS建立了一个低成本、可复现且硬件感知的范例，无需云基础设施。

🔬 方法详解

问题定义：现有的神经架构搜索方法通常需要大量的计算资源，这使得它们难以在资源受限的环境中应用，例如边缘设备。此外，基于LLM的NAS方法通常会丢弃失败的架构搜索轨迹，导致信息损失。

核心思路：本文的核心思路是利用LLM的强大代码生成和推理能力，结合反馈记忆机制，迭代地改进网络架构。通过将失败的搜索轨迹也纳入学习过程，并使用双LLM结构，降低了每次迭代的认知负荷，从而在资源受限的环境中实现高效的NAS。

技术框架：该方法采用闭环流程，包含以下主要模块：1) 代码生成器：使用LLM生成PyTorch架构代码。2) 架构评估器：在代理数据集上评估生成的架构的性能。3) 提示改进器：使用LLM分析架构的性能，识别问题并提出改进建议。4) 反馈记忆：存储历史搜索轨迹，包括问题、建议和结果，为后续迭代提供上下文信息。

关键创新：该方法最重要的技术创新点在于引入了反馈记忆机制，将失败的搜索轨迹也纳入学习过程，从而更有效地利用历史信息。此外，双LLM结构（代码生成器和提示改进器）降低了每次迭代的认知负荷，提高了搜索效率。

关键设计：反馈记忆采用滑动窗口机制，保持上下文大小恒定（K=5）。诊断三元组记录问题、建议和结果。使用单epoch代理精度作为快速排序信号。使用小于等于7B参数的预训练LLM。搜索隐式地偏向于紧凑、硬件高效的模型。

🖼️ 关键图片

📊 实验亮点

在CIFAR-10数据集上，使用DeepSeek-Coder-6.7B模型，架构精度从28.2%提升至69.2%；使用Qwen2.5-7B模型，精度从50.0%提升至71.5%；使用GLM-5模型，精度从43.2%提升至62.0%。完整的2000次迭代搜索在单个RTX 4090 GPU上仅需约18小时。

🎯 应用场景

该研究成果可应用于边缘计算设备上的模型自动设计，例如智能手机、无人机和物联网设备。通过在资源受限的环境中自动搜索高效的网络架构，可以降低模型部署成本，提高设备性能，并加速AI在各行业的落地。

📄 摘要（原文）

Neural Architecture Search (NAS) automates network design, but conventional methods demand substantial computational resources. We propose a closed-loop pipeline leveraging large language models (LLMs) to iteratively generate, evaluate, and refine convolutional neural network architectures for image classification on a single consumer-grade GPU without LLM fine-tuning. Central to our approach is a historical feedback memory inspired by Markov chains: a sliding window of $K{=}5$ recent improvement attempts keeps context size constant while providing sufficient signal for iterative learning. Unlike prior LLM optimizers that discard failure trajectories, each history entry is a structured diagnostic triple -- recording the identified problem, suggested modification, and resulting outcome -- treating code execution failures as first-class learning signals. A dual-LLM specialization reduces per-call cognitive load: a Code Generator produces executable PyTorch architectures while a Prompt Improver handles diagnostic reasoning. Since both the LLM and architecture training share limited VRAM, the search implicitly favors compact, hardware-efficient models suited to edge deployment. We evaluate three frozen instruction-tuned LLMs (${\leq}7$B parameters) across up to 2000 iterations in an unconstrained open code space, using one-epoch proxy accuracy on CIFAR-10, CIFAR-100, and ImageNette as a fast ranking signal. On CIFAR-10, DeepSeek-Coder-6.7B improves from 28.2% to 69.2%, Qwen2.5-7B from 50.0% to 71.5%, and GLM-5 from 43.2% to 62.0%. A full 2000-iteration search completes in ${\approx}18$ GPU hours on a single RTX~4090, establishing a low-budget, reproducible, and hardware-aware paradigm for LLM-driven NAS without cloud infrastructure.

Resource-Efficient Iterative LLM-Based NAS with Feedback Memory

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理