Convergence Theory for Iterative LLM-Based Neural Architecture Search: A Parametric Cross-Entropy Framework with Closed-Form Proxy Reliability
作者: Santosh Premi Adhikari, Radu Timofte, Dmitry Ignatov
分类: cs.LG
发布日期: 2026-05-28
备注: 14 pages, 2 figures, 2 tables. Submitted to NeurIPS 2026
💡 一句话要点
提出基于LLM的NAS收敛性理论,并用参数化交叉熵框架进行验证。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 神经架构搜索 大型语言模型 收敛性分析 交叉熵方法 代理模型 自动化机器学习 AutoML
📋 核心要点
- 现有基于LLM的神经架构搜索方法缺乏形式化的收敛性理论,难以保证搜索过程的稳定性和效率。
- 论文将迭代LLM-NAS建模为参数化交叉熵方法,并从理论上证明了架构质量的单调递增和精英集概率的收敛性。
- 实验结果验证了理论预测,并解释了代理可靠性上限效应,为实际应用提供了指导。
📝 摘要(中文)
本文针对基于大型语言模型(LLM)的迭代神经架构搜索(NAS)缺乏形式化收敛理论的问题,提出了一个参数化交叉熵(CE)框架。论文证明了六个结论:(1)在精英架构上迭代微调LLM等价于限制在LLM参数族上的CE更新;(2)预期架构质量在循环中单调非递减;(3)精英集概率以几何速率收敛到固定点C_t >= 1-(1-rho_0)^t;(4)在一阶马尔可夫token错误模型下,基于delta的生成比完整代码生成实现了更高的有效生成率;(5)MinHash-Jaccard新颖性过滤器防止了模式崩溃;(6)代理可靠性允许闭式解rho_S = (6/pi) arcsin(rho_P(SNR)/2),从而产生了实际诊断sigma^2_arch >> sigma^2_noise,作为可信代理排名的必要条件。通过一个包含22个循环、三个LLM和六个数据集的实验,生成了3300个架构,验证了两个预测的定量结果,两个预测的方向效应,并解释了先前经验报告但未解释的代理可靠性上限效应。
🔬 方法详解
问题定义:论文旨在解决基于大型语言模型(LLM)的迭代神经架构搜索(NAS)算法缺乏形式化收敛理论的问题。现有的基于LLM的NAS方法通常依赖于经验性的迭代过程,缺乏理论指导,难以保证搜索过程的稳定性和效率,也难以解释一些实验现象,例如代理可靠性上限效应。
核心思路:论文的核心思路是将迭代LLM-NAS过程建模为一个参数化的交叉熵(CE)方法。通过将LLM的微调过程与CE更新联系起来,可以利用CE方法的收敛性理论来分析LLM-NAS的收敛行为。此外,论文还分析了delta-based生成、新颖性过滤和代理可靠性等关键技术对算法性能的影响。
技术框架:论文的技术框架主要包括以下几个部分:1)将迭代LLM-NAS建模为参数化CE方法;2)证明了架构质量的单调递增和精英集概率的收敛性;3)分析了delta-based生成、MinHash-Jaccard新颖性过滤器和代理可靠性对算法性能的影响;4)通过实验验证了理论预测。
关键创新:论文最重要的技术创新点在于建立了基于LLM的NAS的收敛性理论。通过将LLM-NAS建模为参数化CE方法,论文首次从理论上分析了LLM-NAS的收敛行为,并解释了一些实验现象。此外,论文还提出了代理可靠性的闭式解,为实际应用提供了指导。
关键设计:论文的关键设计包括:1)使用交叉熵损失函数来训练LLM;2)使用精英集来选择高质量的架构;3)使用delta-based生成来提高有效生成率;4)使用MinHash-Jaccard新颖性过滤器来防止模式崩溃;5)使用代理模型来评估架构质量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,理论预测与实际结果相符。具体而言,论文验证了架构质量的单调递增和精英集概率的收敛性。此外,实验还解释了先前经验报告但未解释的代理可靠性上限效应,并定量验证了delta-based生成和新颖性过滤的有效性。在包含3300个生成架构的实验中,论文的理论分析得到了充分验证。
🎯 应用场景
该研究成果可应用于自动化机器学习(AutoML)领域,特别是神经架构搜索。通过理论指导,可以设计更稳定、高效的基于LLM的NAS算法,加速新神经网络架构的发现,并降低对人工经验的依赖。该研究还有助于理解和优化其他基于LLM的生成式算法。
📄 摘要(原文)
Large language models (LLMs) are increasingly used as generators in iterative neural architecture search (NAS), yet no formal convergence theory exists for this class of algorithms. We model iterative LLM-NAS as a parametric Cross-Entropy (CE) method over executable programs and prove six results: (1) iterative LLM fine-tuning on elite architectures is equivalent to the CE update restricted to the LLM parametric family; (2) expected architecture quality is monotonically non-decreasing across cycles; (3) elite-set probability converges to a fixed point at a geometric rate C_t >= 1-(1-rho_0)^t; (4) delta-based generation achieves a strictly higher valid-generation rate than full-code generation under a first-order Markov token-error model; (5) the MinHash-Jaccard novelty filter prevents mode collapse; (6) proxy reliability admits the closed-form rho_S = (6/pi) arcsin(rho_P(SNR)/2), yielding the practical diagnostic sigma^2_arch >> sigma^2_noise as a necessary condition for trustworthy proxy-based rankings. Testing against a 22-cycle, three-LLM, six-dataset experiment with 3,300 generated architectures confirms two predictions quantitatively, two at direction-of-effect level, and explains the proxy-reliability ceiling effect previously reported empirically but left unexplained.