Enhancing LLM-Based Neural Network Generation: Few-Shot Prompting and Efficient Validation for Automated Architecture Design
作者: Chandini Vysyaraju, Raghuvir Duvvuri, Avi Goyal, Dmitry Ignatov, Radu Timofte
分类: cs.CV, cs.AI
发布日期: 2025-12-30
💡 一句话要点
提出FSAP与Whitespace-Normalized Hash Validation,提升LLM在计算机视觉架构自动设计中的效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经架构搜索 大型语言模型 提示工程 架构验证 自动化设计
📋 核心要点
- 现有神经架构搜索(NAS)计算成本高昂,且缺乏对LLM在计算机视觉架构生成中提示工程和验证策略的系统研究。
- 提出Few-Shot Architecture Prompting (FSAP) 和 Whitespace-Normalized Hash Validation,优化LLM生成架构的效率和质量。
- 实验表明,FSAP在n=3时平衡了架构多样性和上下文关注度,Whitespace-Normalized Hash Validation实现了100倍的加速。
📝 摘要(中文)
在计算机视觉中,自动神经网络架构设计仍然是一个重要的挑战。任务的多样性和计算约束要求有效的架构和高效的搜索方法。大型语言模型(LLM)为计算密集型的神经架构搜索(NAS)提供了一个有希望的替代方案,但它们在计算机视觉架构生成中的应用尚未得到系统研究,尤其是在提示工程和验证策略方面。本文基于任务无关的NNGPT/LEMUR框架,介绍并验证了两个关键贡献。首先,我们提出了Few-Shot Architecture Prompting(FSAP),这是第一个对基于LLM的架构生成的支持示例数量(n = 1, 2, 3, 4, 5, 6)进行系统研究。我们发现使用n = 3个示例能够最好地平衡视觉任务的架构多样性和上下文关注度。其次,我们引入了Whitespace-Normalized Hash Validation,一种轻量级的去重方法(小于1毫秒),它比AST解析快100倍,并防止重复训练重复的计算机视觉架构。在跨七个计算机视觉基准(MNIST、CIFAR-10、CIFAR-100、CelebA、ImageNette、SVHN、Places365)的大规模实验中,我们生成了1,900个独特的架构。我们还引入了一种数据集平衡的评估方法,以解决跨异构视觉任务比较架构的挑战。这些贡献为计算机视觉中基于LLM的架构搜索提供了可操作的指导方针,并建立了严格的评估实践,使计算资源有限的研究人员更容易进行自动设计。
🔬 方法详解
问题定义:论文旨在解决计算机视觉领域中,利用大型语言模型(LLM)自动生成神经网络架构时,缺乏系统性的提示工程和高效的架构验证方法的问题。现有的神经架构搜索(NAS)方法计算成本高昂,而直接使用LLM生成架构时,缺乏对提示信息的有效利用和对重复架构的高效过滤,导致搜索效率低下。
核心思路:论文的核心思路是通过精心设计的提示策略(FSAP)来引导LLM生成更具多样性和针对性的架构,并利用高效的哈希验证方法(Whitespace-Normalized Hash Validation)来快速去除重复架构,从而提高LLM在计算机视觉架构自动设计中的效率。
技术框架:整体框架包含两个主要模块:1) 基于Few-Shot Architecture Prompting (FSAP) 的LLM架构生成模块:该模块通过提供少量示例架构,引导LLM生成新的架构。2) Whitespace-Normalized Hash Validation模块:该模块用于快速检测和去除重复的架构,避免重复训练。整个流程是先通过FSAP生成一批架构,然后通过Whitespace-Normalized Hash Validation进行去重,最后对剩余的架构进行评估和选择。
关键创新:论文最重要的技术创新点在于提出了Few-Shot Architecture Prompting (FSAP) 和 Whitespace-Normalized Hash Validation。FSAP通过少量示例引导LLM生成架构,解决了LLM在缺乏上下文信息时生成架构质量不高的问题。Whitespace-Normalized Hash Validation通过对架构代码进行空白符归一化后计算哈希值,实现了快速且准确的架构去重,避免了重复训练。
关键设计:FSAP的关键设计在于选择合适的示例数量(n)。论文通过实验发现,当n=3时,可以最好地平衡架构的多样性和上下文关注度。Whitespace-Normalized Hash Validation的关键设计在于空白符归一化,这使得即使架构代码的格式不同,只要逻辑结构相同,其哈希值也会相同,从而实现了准确的去重。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Few-Shot Architecture Prompting (FSAP) 在使用3个示例时,能够最好地平衡架构的多样性和上下文关注度。Whitespace-Normalized Hash Validation 实现了比AST解析快100倍的去重速度,且准确率高。在七个计算机视觉基准测试中生成了1900个独特的架构,并提出了一种数据集平衡的评估方法。
🎯 应用场景
该研究成果可应用于各种计算机视觉任务的神经网络架构自动设计,例如图像分类、目标检测、图像分割等。它能够帮助研究人员和工程师快速找到适合特定任务的高效架构,降低模型设计的门槛,并加速计算机视觉算法的开发和部署。该方法尤其适用于计算资源有限的场景。
📄 摘要(原文)
Automated neural network architecture design remains a significant challenge in computer vision. Task diversity and computational constraints require both effective architectures and efficient search methods. Large Language Models (LLMs) present a promising alternative to computationally intensive Neural Architecture Search (NAS), but their application to architecture generation in computer vision has not been systematically studied, particularly regarding prompt engineering and validation strategies. Building on the task-agnostic NNGPT/LEMUR framework, this work introduces and validates two key contributions for computer vision. First, we present Few-Shot Architecture Prompting (FSAP), the first systematic study of the number of supporting examples (n = 1, 2, 3, 4, 5, 6) for LLM-based architecture generation. We find that using n = 3 examples best balances architectural diversity and context focus for vision tasks. Second, we introduce Whitespace-Normalized Hash Validation, a lightweight deduplication method (less than 1 ms) that provides a 100x speedup over AST parsing and prevents redundant training of duplicate computer vision architectures. In large-scale experiments across seven computer vision benchmarks (MNIST, CIFAR-10, CIFAR-100, CelebA, ImageNette, SVHN, Places365), we generated 1,900 unique architectures. We also introduce a dataset-balanced evaluation methodology to address the challenge of comparing architectures across heterogeneous vision tasks. These contributions provide actionable guidelines for LLM-based architecture search in computer vision and establish rigorous evaluation practices, making automated design more accessible to researchers with limited computational resources.