Delta-Based Neural Architecture Search: LLM Fine-Tuning via Code Diffs

作者: Santosh Premi Adhikari, Radu Timofte, Dmitry Ignatov

分类: cs.LG, cs.AI, cs.CV

发布日期: 2026-05-06

备注: 19 pages, 4 figures, 7 tables

💡 一句话要点

提出基于Delta-Code生成的神经架构搜索方法，通过代码差异微调LLM，提升效率并简化代码。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 大型语言模型 代码生成 增量学习 模型微调

📋 核心要点

现有神经架构生成方法计算成本高昂，且生成的代码冗长，难以维护和优化。
提出Delta-Code生成方法，通过微调LLM生成代码差异，对现有架构进行增量式改进，而非从零构建。
实验结果表明，该方法在多个数据集上显著提升了架构搜索的有效性和效率，并大幅减少了代码长度。

📝 摘要（中文）

本文提出了一种Delta-Code生成方法，用于利用大型语言模型（LLM）进行神经架构搜索。该方法通过微调LLM来生成紧凑的统一差异（deltas），从而改进基线架构，而不是从头开始合成完整的模型，显著降低了计算成本并减少了冗余代码。该流程通过LoRA在LEMUR数据集中的架构上迭代微调LLM，并使用MinHash-Jaccard新颖性过滤来保证结构多样性。在六个数据集（CIFAR-10、CIFAR-100、MNIST、SVHN、ImageNette、CelebA）上，对DeepSeek-Coder-7B、Qwen2.5-Coder-7B和Mistral-7B这三个7B级LLM进行了评估。结果表明，所有三个模型都显著优于完全生成基线。Delta-based生成是一种token高效、多领域且LLM无关的替代方案，可用于LLM驱动的NAS。

🔬 方法详解

问题定义：神经架构搜索（NAS）旨在自动发现高性能的神经网络架构。然而，利用大型语言模型（LLM）直接生成完整的模型代码计算成本高昂，且生成的代码冗长，难以理解和维护。现有方法缺乏效率和可扩展性，难以适应不同的数据集和任务。

核心思路：本文的核心思路是利用LLM生成代码差异（deltas），而不是完整的模型代码。通过对预训练的LLM进行微调，使其能够根据给定的基线架构生成修改建议，从而实现对现有架构的增量式改进。这种方法可以显著减少生成的代码量，降低计算成本，并提高架构搜索的效率。

技术框架：该方法包含以下主要步骤：1) 选择一个预训练的LLM作为基础模型；2) 使用LoRA技术在LEMUR数据集上对LLM进行微调，使其能够生成代码差异；3) 使用MinHash-Jaccard新颖性过滤来保证生成架构的多样性；4) 迭代地生成和评估新的架构，并使用性能反馈来进一步微调LLM。

关键创新：该方法最重要的技术创新点在于使用代码差异来表示架构的修改。与直接生成完整的模型代码相比，生成代码差异更加高效，并且可以更好地利用LLM的知识。此外，该方法还引入了MinHash-Jaccard新颖性过滤，以保证生成架构的多样性，避免陷入局部最优解。

关键设计：在微调过程中，使用了LoRA技术来减少训练参数量，并加速训练过程。使用了交叉熵损失函数来优化LLM的生成能力。在生成代码差异时，使用了统一差异格式（unified diffs）来表示代码的修改。在评估架构性能时，使用了第一轮训练的准确率作为代理指标，以加速评估过程。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于Delta-Code生成的方法在多个数据集上显著优于完全生成基线。例如，在CIFAR-10数据集上，Mistral模型的最佳第一轮准确率达到了85.5%，DeepSeek模型的最佳第一轮准确率达到了85.2%，均远高于完全生成基线的63.98%。此外，该方法生成的代码长度也大幅减少，仅为完全生成的30-50行，减少了75-85%。

🎯 应用场景

该研究成果可广泛应用于各种需要自动神经架构设计的场景，例如图像分类、目标检测、自然语言处理等。通过降低计算成本和提高效率，该方法可以加速新模型的开发和部署，并促进人工智能技术的普及。未来，该方法还可以扩展到其他类型的模型和任务，例如Transformer模型和强化学习任务。

📄 摘要（原文）

Large language models (LLMs) show strong potential for neural architecture generation, yet existing approaches produce complete model implementations from scratch -- computationally expensive and yielding verbose code. We propose Delta-Code Generation, where fine-tuned LLMs generate compact unified diffs (deltas) to refine baseline architectures rather than synthesizing entire models. Our pipeline iteratively fine-tunes the LLM via LoRA on curated architectures from the LEMUR dataset, with MinHash-Jaccard novelty filtering for structural diversity. We evaluate three 7B-class LLMs -- DeepSeek-Coder-7B, Qwen2.5-Coder-7B, and Mistral-7B -- across six datasets (CIFAR-10, CIFAR-100, MNIST, SVHN, ImageNette, CelebA) using a 22-cycle protocol (1,100 candidates per LLM). All three substantially surpass the full-generation baseline (50.6% valid rate, 42.3% mean first-epoch accuracy): DeepSeek-Coder reaches 75.3% valid rate and 65.8% mean accuracy; Qwen2.5-Coder 72.1%/64.6%; Mistral 66.6%/66.1%. On CIFAR-10, best first-epoch accuracies reach 85.5% (Mistral), 85.2% (DeepSeek), 80.6% (Qwen) -- well above 63.98% full generation and 71.5% for the concurrent approach of Gu et al. Output lengths are 30-50 lines versus 200+ for full generation (75-85% reduction). A 50-epoch study confirms the 1-epoch proxy preserves rankings (Mistral: Spearman $ρ$ = 0.926). Delta-based generation is a token-efficient, multi-domain, LLM-agnostic alternative to full-model synthesis for LLM-driven NAS.

Delta-Based Neural Architecture Search: LLM Fine-Tuning via Code Diffs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理