Archon: An Architecture Search Framework for Inference-Time Techniques

📄 arXiv: 2409.15254v6 📥 PDF

作者: Jon Saad-Falcon, Adrian Gamarra Lafuente, Shlok Natarajan, Nahum Maru, Hristo Todorov, Etash Guha, E. Kelly Buchanan, Mayee Chen, Neel Guha, Christopher Ré, Azalia Mirhoseini

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-09-23 (更新: 2025-06-10)

备注: International Conference on Machine Learning (ICML) 2025


💡 一句话要点

Archon:用于推理时技术的架构搜索框架,提升大语言模型性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 推理优化 架构搜索 自动化设计 计算效率

📋 核心要点

  1. 现有推理时技术缺乏系统性的组合和优化方法,难以充分发挥其在不同模型和任务上的潜力。
  2. Archon通过自动化架构搜索,在给定的计算预算下,寻找最优的推理时技术组合和LLM选择策略。
  3. 实验表明,Archon设计的系统在多个任务上显著优于现有先进模型,平均提升高达15.1%。

📝 摘要(中文)

本文提出了Archon,一个模块化和自动化的框架,用于优化推理时技术和大语言模型(LLM)的选择和组合过程。给定计算预算和一组可用的LLM,Archon探索一个大型设计空间,以发现针对目标基准定制的优化配置。它可以设计定制或通用架构,与最佳基线相比,在准确性与最大token预算的帕累托前沿上取得进展。在指令跟随、推理和编码任务中,实验表明Archon可以利用额外的推理计算预算来设计系统,其性能优于OpenAI的o1、GPT-4o和Claude 3.5 Sonnet等前沿模型,平均提升15.1%。

🔬 方法详解

问题定义:现有的大语言模型推理优化方法,例如重复采样或迭代修正,缺乏系统性的设计和组合策略。针对特定任务和模型,如何选择和组合这些推理时技术,以在计算资源有限的情况下最大化性能,是一个亟待解决的问题。现有方法通常依赖人工经验,效率低下且难以达到最优。

核心思路:Archon的核心思路是将推理时技术的选择和组合问题转化为一个架构搜索问题。通过定义一个包含各种推理时技术和LLM的搜索空间,并利用自动化搜索算法,在给定的计算预算下,寻找最优的架构配置。这种方法能够充分探索各种技术组合的可能性,并针对特定任务进行优化。

技术框架:Archon框架主要包含以下几个模块:1) 搜索空间定义:定义可用的LLM、推理时技术及其参数配置;2) 搜索算法:采用进化算法或强化学习等方法,在搜索空间中寻找最优架构;3) 评估模块:评估每个架构在目标任务上的性能,并考虑计算预算;4) 优化模块:根据评估结果,调整搜索策略,加速搜索过程。整个流程迭代进行,直至达到预定的计算预算或性能目标。

关键创新:Archon的关键创新在于将推理时技术的选择和组合问题形式化为一个架构搜索问题,并提供了一个模块化和自动化的框架来解决这个问题。与传统的手工设计方法相比,Archon能够更高效地探索更大的设计空间,并找到更优的架构配置。此外,Archon还考虑了计算预算的约束,使得搜索结果更具实用性。

关键设计:Archon的关键设计包括:1) 搜索空间的合理定义,需要包含足够多的推理时技术和LLM,同时避免搜索空间过大;2) 搜索算法的选择,需要根据搜索空间的特点和计算资源进行选择;3) 评估指标的设计,需要综合考虑性能和计算成本;4) 优化策略的设计,需要加速搜索过程,并避免陷入局部最优。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Archon在指令跟随、推理和编码任务上,能够设计出优于现有先进模型的系统。例如,在某些任务上,Archon设计的系统比OpenAI的GPT-4o和Claude 3.5 Sonnet等模型平均提升了15.1%。这些结果表明,通过自动化架构搜索,可以有效地利用额外的推理计算预算来提升大语言模型的性能。

🎯 应用场景

Archon可应用于各种需要优化大语言模型推理性能的场景,例如智能客服、机器翻译、代码生成等。通过自动化地搜索和优化推理时技术,Archon可以帮助用户在有限的计算资源下,获得更高的模型性能和更好的用户体验。此外,Archon还可以用于研究不同推理时技术之间的相互作用,为未来的模型设计提供指导。

📄 摘要(原文)

Inference-time techniques, such as repeated sampling or iterative revisions, are emerging as powerful ways to enhance large-language models (LLMs) at test time. However, best practices for developing systems that combine these techniques remain underdeveloped due to our limited understanding of the utility of each technique across models and tasks, the interactions between them, and the massive search space for combining them. To address these challenges, we introduce Archon, a modular and automated framework for optimizing the process of selecting and combining inference-time techniques and LLMs. Given a compute budget and a set of available LLMs, Archon explores a large design space to discover optimized configurations tailored to target benchmarks. It can design custom or general-purpose architectures that advance the Pareto frontier of accuracy vs. maximum token budget compared to top-performing baselines. Across instruction-following, reasoning, and coding tasks, we show that Archon can leverage additional inference compute budget to design systems that outperform frontier models such as OpenAI's o1, GPT-4o, and Claude 3.5 Sonnet by an average of 15.1%.