Delta-Based Neural Architecture Search: LLM Fine-Tuning via Code Diffs

📄 arXiv: 2605.04903v1 📥 PDF

作者: Santosh Premi Adhikari, Radu Timofte, Dmitry Ignatov

分类: cs.LG, cs.AI, cs.CV

发布日期: 2026-05-06

备注: 19 pages, 4 figures, 7 tables


💡 一句话要点

提出基于Delta-Code生成的神经架构搜索方法,通过代码差异微调LLM,提升效率并简化代码。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 大型语言模型 代码生成 增量学习 模型微调

📋 核心要点

  1. 现有神经架构生成方法计算成本高昂,且生成的代码冗长,难以维护和优化。
  2. 提出Delta-Code生成方法,通过微调LLM生成代码差异,对现有架构进行增量式改进,而非从零构建。
  3. 实验结果表明,该方法在多个数据集上显著提升了架构搜索的有效性和效率,并大幅减少了代码长度。

📝 摘要(中文)

本文提出了一种Delta-Code生成方法,用于利用大型语言模型(LLM)进行神经架构搜索。该方法通过微调LLM来生成紧凑的统一差异(deltas),从而改进基线架构,而不是从头开始合成完整的模型,显著降低了计算成本并减少了冗余代码。该流程通过LoRA在LEMUR数据集中的架构上迭代微调LLM,并使用MinHash-Jaccard新颖性过滤来保证结构多样性。在六个数据集(CIFAR-10、CIFAR-100、MNIST、SVHN、ImageNette、CelebA)上,对DeepSeek-Coder-7B、Qwen2.5-Coder-7B和Mistral-7B这三个7B级LLM进行了评估。结果表明,所有三个模型都显著优于完全生成基线。Delta-based生成是一种token高效、多领域且LLM无关的替代方案,可用于LLM驱动的NAS。

🔬 方法详解

问题定义:神经架构搜索(NAS)旨在自动发现高性能的神经网络架构。然而,利用大型语言模型(LLM)直接生成完整的模型代码计算成本高昂,且生成的代码冗长,难以理解和维护。现有方法缺乏效率和可扩展性,难以适应不同的数据集和任务。

核心思路:本文的核心思路是利用LLM生成代码差异(deltas),而不是完整的模型代码。通过对预训练的LLM进行微调,使其能够根据给定的基线架构生成修改建议,从而实现对现有架构的增量式改进。这种方法可以显著减少生成的代码量,降低计算成本,并提高架构搜索的效率。

技术框架:该方法包含以下主要步骤:1) 选择一个预训练的LLM作为基础模型;2) 使用LoRA技术在LEMUR数据集上对LLM进行微调,使其能够生成代码差异;3) 使用MinHash-Jaccard新颖性过滤来保证生成架构的多样性;4) 迭代地生成和评估新的架构,并使用性能反馈来进一步微调LLM。

关键创新:该方法最重要的技术创新点在于使用代码差异来表示架构的修改。与直接生成完整的模型代码相比,生成代码差异更加高效,并且可以更好地利用LLM的知识。此外,该方法还引入了MinHash-Jaccard新颖性过滤,以保证生成架构的多样性,避免陷入局部最优解。

关键设计:在微调过程中,使用了LoRA技术来减少训练参数量,并加速训练过程。使用了交叉熵损失函数来优化LLM的生成能力。在生成代码差异时,使用了统一差异格式(unified diffs)来表示代码的修改。在评估架构性能时,使用了第一轮训练的准确率作为代理指标,以加速评估过程。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于Delta-Code生成的方法在多个数据集上显著优于完全生成基线。例如,在CIFAR-10数据集上,Mistral模型的最佳第一轮准确率达到了85.5%,DeepSeek模型的最佳第一轮准确率达到了85.2%,均远高于完全生成基线的63.98%。此外,该方法生成的代码长度也大幅减少,仅为完全生成的30-50行,减少了75-85%。

🎯 应用场景

该研究成果可广泛应用于各种需要自动神经架构设计的场景,例如图像分类、目标检测、自然语言处理等。通过降低计算成本和提高效率,该方法可以加速新模型的开发和部署,并促进人工智能技术的普及。未来,该方法还可以扩展到其他类型的模型和任务,例如Transformer模型和强化学习任务。

📄 摘要(原文)

Large language models (LLMs) show strong potential for neural architecture generation, yet existing approaches produce complete model implementations from scratch -- computationally expensive and yielding verbose code. We propose Delta-Code Generation, where fine-tuned LLMs generate compact unified diffs (deltas) to refine baseline architectures rather than synthesizing entire models. Our pipeline iteratively fine-tunes the LLM via LoRA on curated architectures from the LEMUR dataset, with MinHash-Jaccard novelty filtering for structural diversity. We evaluate three 7B-class LLMs -- DeepSeek-Coder-7B, Qwen2.5-Coder-7B, and Mistral-7B -- across six datasets (CIFAR-10, CIFAR-100, MNIST, SVHN, ImageNette, CelebA) using a 22-cycle protocol (1,100 candidates per LLM). All three substantially surpass the full-generation baseline (50.6% valid rate, 42.3% mean first-epoch accuracy): DeepSeek-Coder reaches 75.3% valid rate and 65.8% mean accuracy; Qwen2.5-Coder 72.1%/64.6%; Mistral 66.6%/66.1%. On CIFAR-10, best first-epoch accuracies reach 85.5% (Mistral), 85.2% (DeepSeek), 80.6% (Qwen) -- well above 63.98% full generation and 71.5% for the concurrent approach of Gu et al. Output lengths are 30-50 lines versus 200+ for full generation (75-85% reduction). A 50-epoch study confirms the 1-epoch proxy preserves rankings (Mistral: Spearman $ρ$ = 0.926). Delta-based generation is a token-efficient, multi-domain, LLM-agnostic alternative to full-model synthesis for LLM-driven NAS.