Convergence Theory for Iterative LLM-Based Neural Architecture Search: A Parametric Cross-Entropy Framework with Closed-Form Proxy Reliability

作者: Santosh Premi Adhikari, Radu Timofte, Dmitry Ignatov

分类: cs.LG

发布日期: 2026-05-28

备注: 14 pages, 2 figures, 2 tables. Submitted to NeurIPS 2026

💡 一句话要点

提出基于LLM的NAS收敛性理论，并用参数化交叉熵框架进行验证。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 大型语言模型 收敛性分析 交叉熵方法 代理模型 自动化机器学习 AutoML

📋 核心要点

现有基于LLM的神经架构搜索方法缺乏形式化的收敛性理论，难以保证搜索过程的稳定性和效率。
论文将迭代LLM-NAS建模为参数化交叉熵方法，并从理论上证明了架构质量的单调递增和精英集概率的收敛性。
实验结果验证了理论预测，并解释了代理可靠性上限效应，为实际应用提供了指导。

📝 摘要（中文）

本文针对基于大型语言模型（LLM）的迭代神经架构搜索（NAS）缺乏形式化收敛理论的问题，提出了一个参数化交叉熵（CE）框架。论文证明了六个结论：（1）在精英架构上迭代微调LLM等价于限制在LLM参数族上的CE更新；（2）预期架构质量在循环中单调非递减；（3）精英集概率以几何速率收敛到固定点C_t >= 1-(1-rho_0)^t；（4）在一阶马尔可夫token错误模型下，基于delta的生成比完整代码生成实现了更高的有效生成率；（5）MinHash-Jaccard新颖性过滤器防止了模式崩溃；（6）代理可靠性允许闭式解rho_S = (6/pi) arcsin(rho_P(SNR)/2)，从而产生了实际诊断sigma^2_arch >> sigma^2_noise，作为可信代理排名的必要条件。通过一个包含22个循环、三个LLM和六个数据集的实验，生成了3300个架构，验证了两个预测的定量结果，两个预测的方向效应，并解释了先前经验报告但未解释的代理可靠性上限效应。

🔬 方法详解

问题定义：论文旨在解决基于大型语言模型（LLM）的迭代神经架构搜索（NAS）算法缺乏形式化收敛理论的问题。现有的基于LLM的NAS方法通常依赖于经验性的迭代过程，缺乏理论指导，难以保证搜索过程的稳定性和效率，也难以解释一些实验现象，例如代理可靠性上限效应。

核心思路：论文的核心思路是将迭代LLM-NAS过程建模为一个参数化的交叉熵（CE）方法。通过将LLM的微调过程与CE更新联系起来，可以利用CE方法的收敛性理论来分析LLM-NAS的收敛行为。此外，论文还分析了delta-based生成、新颖性过滤和代理可靠性等关键技术对算法性能的影响。

技术框架：论文的技术框架主要包括以下几个部分：1）将迭代LLM-NAS建模为参数化CE方法；2）证明了架构质量的单调递增和精英集概率的收敛性；3）分析了delta-based生成、MinHash-Jaccard新颖性过滤器和代理可靠性对算法性能的影响；4）通过实验验证了理论预测。

关键创新：论文最重要的技术创新点在于建立了基于LLM的NAS的收敛性理论。通过将LLM-NAS建模为参数化CE方法，论文首次从理论上分析了LLM-NAS的收敛行为，并解释了一些实验现象。此外，论文还提出了代理可靠性的闭式解，为实际应用提供了指导。

关键设计：论文的关键设计包括：1）使用交叉熵损失函数来训练LLM；2）使用精英集来选择高质量的架构；3）使用delta-based生成来提高有效生成率；4）使用MinHash-Jaccard新颖性过滤器来防止模式崩溃；5）使用代理模型来评估架构质量。

🖼️ 关键图片

📊 实验亮点

实验结果表明，理论预测与实际结果相符。具体而言，论文验证了架构质量的单调递增和精英集概率的收敛性。此外，实验还解释了先前经验报告但未解释的代理可靠性上限效应，并定量验证了delta-based生成和新颖性过滤的有效性。在包含3300个生成架构的实验中，论文的理论分析得到了充分验证。

🎯 应用场景

该研究成果可应用于自动化机器学习（AutoML）领域，特别是神经架构搜索。通过理论指导，可以设计更稳定、高效的基于LLM的NAS算法，加速新神经网络架构的发现，并降低对人工经验的依赖。该研究还有助于理解和优化其他基于LLM的生成式算法。

📄 摘要（原文）

Large language models (LLMs) are increasingly used as generators in iterative neural architecture search (NAS), yet no formal convergence theory exists for this class of algorithms. We model iterative LLM-NAS as a parametric Cross-Entropy (CE) method over executable programs and prove six results: (1) iterative LLM fine-tuning on elite architectures is equivalent to the CE update restricted to the LLM parametric family; (2) expected architecture quality is monotonically non-decreasing across cycles; (3) elite-set probability converges to a fixed point at a geometric rate C_t >= 1-(1-rho_0)^t; (4) delta-based generation achieves a strictly higher valid-generation rate than full-code generation under a first-order Markov token-error model; (5) the MinHash-Jaccard novelty filter prevents mode collapse; (6) proxy reliability admits the closed-form rho_S = (6/pi) arcsin(rho_P(SNR)/2), yielding the practical diagnostic sigma^2_arch >> sigma^2_noise as a necessary condition for trustworthy proxy-based rankings. Testing against a 22-cycle, three-LLM, six-dataset experiment with 3,300 generated architectures confirms two predictions quantitatively, two at direction-of-effect level, and explains the proxy-reliability ceiling effect previously reported empirically but left unexplained.

Convergence Theory for Iterative LLM-Based Neural Architecture Search: A Parametric Cross-Entropy Framework with Closed-Form Proxy Reliability

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理