Agentic Discovery of Neural Architectures: AIRA-Compose and AIRA-Design

📄 arXiv: 2605.15871v1 📥 PDF

作者: Alberto Pepe, Chien-Yu Lin, Despoina Magka, Bilge Acun, Yannan Nellie Wu, Anton Protopopov, Carole-Jean Wu, Yoram Bachrach

分类: cs.AI

发布日期: 2026-05-15

备注: 55 pages, 28 figures, 21 tables


💡 一句话要点

提出AIRA框架,利用LLM自主设计超越Transformer的下一代基础模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主架构设计 大型语言模型 神经网络架构搜索 基础模型 递归式自我改进

📋 核心要点

  1. 现有Transformer架构在处理复杂任务时存在局限性,需要探索新的架构设计以提升性能和效率。
  2. 提出AIRA框架,利用LLM智能体自主探索和设计新型神经网络架构,包括高层架构搜索和底层机制实现。
  3. 实验表明,AIRA发现的架构在多个基准测试中优于现有模型,展现了AI自主架构设计的潜力。

📝 摘要(中文)

本文研究了利用LLM智能体自主设计超越标准Transformer的基础模型,旨在实现递归式自我改进。提出了一个双框架方法:AIRA-Compose用于高层架构搜索,AIRA-Design用于低层机制实现。AIRA-Compose使用11个智能体在24小时预算内探索基本计算原语,评估百万参数候选模型,并将最佳设计外推到3.5亿、10亿和30亿规模。由此产生了两个系列的14个架构:AIRAformer(基于Transformer)和AIRAhybrid(Transformer-Mamba)。在10亿规模上进行预训练后,这些模型始终优于Llama 3.2和Composer-found基线。在下游任务中,AIRAformer-D和AIRAhybrid-D的准确率比Llama 3.2分别提高了2.4%和3.8%。此外,AIRA-Compose找到了具有高效缩放前沿的模型:AIRAformer-C比Llama 3.2和Composer的最佳Transformer缩放速度快54%和71%,而AIRAhybrid-C比Nemotron-2和Composer的最佳混合模型缩放速度快23%和37%。AIRA-Design任务使用20个智能体编写用于长程依赖关系的新型注意力机制和高性能训练脚本。在Long Range Arena基准测试中,智能体设计的架构在文档匹配和文本分类方面达到了人类最先进水平的2.3%和2.6%。在Autoresearch基准测试中,Greedy Opus 4.5在固定时间预算下实现了0.968的验证bits-per-byte,超过了已发布的最小值。总之,这些框架表明AI智能体可以自主发现与手工设计的基线相匹配或超越的架构和算法优化,从而为发现下一代基础模型建立了一个强大的范例,标志着迈向递归式自我改进的明确一步。

🔬 方法详解

问题定义:现有深度学习模型架构的设计主要依赖人工经验和试错,效率低下且难以发现新的、更优的架构。Transformer虽然取得了显著成果,但在某些任务上仍存在局限性,需要探索超越Transformer的新型架构。此外,手动设计和优化训练脚本也耗时耗力,难以充分利用硬件资源。

核心思路:利用大型语言模型(LLM)作为智能体,自主探索和设计神经网络架构和训练脚本。通过定义明确的目标和约束条件,引导LLM智能体进行搜索和优化,从而发现更优的架构和算法。这种方法旨在实现递归式自我改进,使AI能够自主进化。

技术框架:AIRA框架包含两个主要组成部分:AIRA-Compose和AIRA-Design。AIRA-Compose负责高层架构搜索,利用多个智能体探索不同的计算原语和架构组合,并评估其性能。AIRA-Design负责低层机制实现,利用智能体设计新型注意力机制和高性能训练脚本。这两个部分协同工作,共同完成基础模型的自主设计。

关键创新:该方法的核心创新在于利用LLM智能体进行自主架构搜索和算法优化,摆脱了对人工经验的依赖。通过定义明确的目标和约束条件,引导智能体进行探索,从而发现更优的架构和算法。此外,该方法还引入了双框架结构,将高层架构搜索和底层机制实现分离,从而提高了搜索效率和灵活性。

关键设计:AIRA-Compose使用11个智能体,在24小时预算内探索百万参数候选模型。智能体根据性能指标对候选模型进行评估,并将最佳设计外推到更大的规模。AIRA-Design使用20个智能体,设计新型注意力机制和高性能训练脚本。在训练过程中,使用特定的损失函数和优化算法,以提高模型的性能和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AIRA框架发现的AIRAformer和AIRAhybrid架构在多个基准测试中优于Llama 3.2和Composer-found基线。在下游任务中,AIRAformer-D和AIRAhybrid-D的准确率比Llama 3.2分别提高了2.4%和3.8%。AIRAformer-C比Llama 3.2和Composer的最佳Transformer缩放速度快54%和71%,而AIRAhybrid-C比Nemotron-2和Composer的最佳混合模型缩放速度快23%和37%。

🎯 应用场景

该研究成果可应用于各种需要高性能深度学习模型的领域,例如自然语言处理、计算机视觉、语音识别等。通过AI自主设计,可以快速发现针对特定任务优化的模型架构,降低开发成本,并加速AI技术的普及。未来,该方法有望应用于更广泛的AI系统设计,实现真正的AI自主进化。

📄 摘要(原文)

Toward recursive self-improvement, we investigate LLM agents autonomously designing foundation models beyond standard Transformers. We introduce a dual-framework approach: AIRA-Compose for high-level architecture search, and AIRA-Design for low-level mechanistic implementation. AIRA-Compose uses 11 agents to explore fundamental computational primitives under a 24-hour budget. Agents evaluate million-parameter candidates, extrapolating top designs to 350M, 1B, and 3B scales. This yields 14 architectures across two families: AIRAformers (Transformer-based) and AIRAhybrids (Transformer-Mamba). Pre-trained at 1B scale, these consistently outperform Llama 3.2 and Composer-found baselines. On downstream tasks, AIRAformer-D and AIRAhybrid-D improve accuracy by 2.4% and 3.8% over Llama 3.2. Furthermore, AIRA-Compose finds models with highly efficient scaling frontiers: AIRAformer-C scales 54% and 71% faster than Llama 3.2 and Composer's best Transformer, while AIRAhybrid-C outscales Nemotron-2 by 23% and Composer's best hybrid by 37%. AIRA-Design tasks 20 agents with writing novel attention mechanisms for long-range dependencies and high-performing training scripts. On the Long Range Arena benchmark, agent-designed architectures reach within 2.3% and 2.6% of human state-of-the-art on document matching and text classification. On the Autoresearch benchmark, Greedy Opus 4.5 achieves 0.968 validation bits-per-byte under a fixed time budget, surpassing the published minimum. Together, these frameworks show AI agents can autonomously discover architectures and algorithmic optimizations matching or surpassing hand-designed baselines. This establishes a powerful paradigm for discovering next-generation foundation models, marking a clear step toward recursive self-improvement.