Arch-LLM: Taming LLMs for Neural Architecture Generation via Unsupervised Discrete Representation Learning

作者: Deshani Geethika Poddenige, Sachith Seneviratne, Damith Senanayake, Mahesan Niranjan, PN Suganthan, Saman Halgamuge

分类: cs.LG

发布日期: 2025-03-28

💡 一句话要点

Arch-LLM：利用无监督离散表示学习，驯服LLM以生成神经架构

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 无监督学习 离散表示学习 变分自编码器 大型语言模型 架构生成 VQ-VAE

📋 核心要点

现有基于VAE的神经架构搜索方法，将离散架构映射到连续空间，导致生成大量无效或重复架构。
提出Arch-LLM，使用VQ-VAE学习与离散神经架构对齐的离散潜在空间，并用LLM生成架构序列。
实验表明，Arch-LLM在NAS-Bench-101和NAS-Bench-201上，显著提高了有效和唯一架构的生成比例。

📝 摘要（中文）

无监督表示学习已广泛应用于各种模态，包括神经架构，并在神经架构搜索（NAS）等下游应用中发挥着关键作用。这些方法通常学习一个无监督的表示空间，然后在下游搜索中生成/采样架构。一种常见的方法是使用变分自编码器（VAE）将离散架构映射到连续表示空间，然而，从这些空间采样通常会导致高比例的无效或重复的神经架构。这可能是由于固有的离散架构空间到连续空间的非自然映射，这强调了对这些架构的鲁棒离散表示的需求。为了解决这个问题，我们引入了一种向量量化变分自编码器（VQ-VAE），以学习与离散神经架构更自然对齐的离散潜在空间。与VAE相比，VQ-VAE（i）将每个架构映射到离散代码序列，并且（ii）允许先验由任何生成模型学习，而不是假设正态分布。然后，我们将这些架构潜在代码表示为数字序列，并利用大型语言模型训练文本到文本模型，以学习和生成表示架构的序列。我们在Inception/ResNet类基于单元的搜索空间（即NAS-Bench-101和NAS-Bench-201）上进行了实验。与基于VAE的方法相比，我们的方法在NASBench-101上将有效和唯一架构的生成提高了80%以上，在NASBench-201上提高了8%以上。最后，我们通过采用基于序列建模的NAS算法，证明了我们的方法在NAS中的适用性。

🔬 方法详解

问题定义：现有基于VAE的神经架构搜索方法，试图将离散的神经架构空间映射到连续的潜在空间。然而，这种映射方式并不自然，导致从潜在空间采样时，会产生大量无效或重复的架构，严重影响了搜索效率和质量。因此，如何学习一种能够有效表示离散神经架构的潜在空间，并从中生成高质量架构，是本文要解决的核心问题。

核心思路：本文的核心思路是利用VQ-VAE学习神经架构的离散表示，并使用大型语言模型（LLM）来生成架构序列。VQ-VAE能够将每个架构映射到离散的代码序列，从而更好地捕捉架构的离散特性。然后，将这些代码序列作为LLM的输入，训练LLM学习架构的分布，并生成新的架构序列。这种方法避免了将离散空间强行映射到连续空间的问题，从而提高了生成有效架构的概率。

技术框架：Arch-LLM的整体框架主要包含两个阶段：1）使用VQ-VAE学习神经架构的离散表示；2）使用LLM生成架构序列。在第一阶段，VQ-VAE将输入的神经架构编码为离散的代码序列，并学习一个码本，用于将编码后的向量量化为离散的码字。在第二阶段，将VQ-VAE生成的代码序列作为LLM的输入，训练LLM学习架构的分布，并使用LLM生成新的代码序列，然后通过VQ-VAE的解码器将其转换为神经架构。

关键创新：本文最重要的技术创新点在于使用VQ-VAE学习神经架构的离散表示，并结合LLM进行架构生成。与传统的VAE方法相比，VQ-VAE能够更好地捕捉架构的离散特性，从而生成更高质量的架构。此外，使用LLM作为生成模型，可以利用LLM强大的语言建模能力，学习更复杂的架构分布，从而生成更多样化的架构。

关键设计：在VQ-VAE的设计中，使用了标准的VQ-VAE结构，包括编码器、解码器和码本。码本的大小是一个重要的参数，需要根据具体的搜索空间进行调整。在LLM的设计中，使用了Transformer架构，并采用了文本到文本的训练方式。损失函数包括VQ-VAE的重构损失和码本损失，以及LLM的语言建模损失。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Arch-LLM在NAS-Bench-101上将有效和唯一架构的生成提高了80%以上，在NAS-Bench-201上提高了8%以上。与基于VAE的方法相比，Arch-LLM能够生成更高比例的有效和唯一架构，证明了其在神经架构搜索中的有效性。此外，实验还验证了Arch-LLM在NAS中的适用性，表明其可以与其他NAS算法相结合，进一步提升搜索性能。

🎯 应用场景

Arch-LLM可应用于各种神经架构搜索任务，尤其是在计算资源有限的情况下，能够高效生成高质量的候选架构。该方法还可扩展到其他离散结构的设计，例如硬件设计、药物发现等领域，具有广阔的应用前景。未来，可以探索将Arch-LLM与其他NAS算法相结合，进一步提升搜索效率和性能。

📄 摘要（原文）

Unsupervised representation learning has been widely explored across various modalities, including neural architectures, where it plays a key role in downstream applications like Neural Architecture Search (NAS). These methods typically learn an unsupervised representation space before generating/ sampling architectures for the downstream search. A common approach involves the use of Variational Autoencoders (VAEs) to map discrete architectures onto a continuous representation space, however, sampling from these spaces often leads to a high percentage of invalid or duplicate neural architectures. This could be due to the unnatural mapping of inherently discrete architectural space onto a continuous space, which emphasizes the need for a robust discrete representation of these architectures. To address this, we introduce a Vector Quantized Variational Autoencoder (VQ-VAE) to learn a discrete latent space more naturally aligned with the discrete neural architectures. In contrast to VAEs, VQ-VAEs (i) map each architecture into a discrete code sequence and (ii) allow the prior to be learned by any generative model rather than assuming a normal distribution. We then represent these architecture latent codes as numerical sequences and train a text-to-text model leveraging a Large Language Model to learn and generate sequences representing architectures. We experiment our method with Inception/ ResNet-like cell-based search spaces, namely NAS-Bench-101 and NAS-Bench-201. Compared to VAE-based methods, our approach improves the generation of valid and unique architectures by over 80% on NASBench-101 and over 8% on NASBench-201. Finally, we demonstrate the applicability of our method in NAS employing a sequence-modeling-based NAS algorithm.

Arch-LLM: Taming LLMs for Neural Architecture Generation via Unsupervised Discrete Representation Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理