MARCO: Multi-Agent Code Optimization with Real-Time Knowledge Integration for High-Performance Computing

📄 arXiv: 2505.03906v3 📥 PDF

作者: Asif Rahman, Veljko Cvetkovic, Kathleen Reece, Aidan Walters, Yasir Hassan, Aneesh Tummeti, Bryan Torres, Denise Cooney, Margaret Ellis, Dimitrios S. Nikolopoulos

分类: cs.DC, cs.LG, cs.SE

发布日期: 2025-05-06 (更新: 2025-06-25)

备注: 9 pages, 4 figures, 2 tables


💡 一句话要点

MARCO:基于实时知识集成的高性能计算多智能体代码优化框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 高性能计算 代码优化 多智能体系统 大型语言模型 实时知识集成

📋 核心要点

  1. 现有通用LLM在高性能计算代码优化方面存在不足,无法满足并行性、内存效率和架构特定优化的需求。
  2. MARCO通过多智能体架构,利用代码生成和性能评估智能体间的反馈循环,逐步优化HPC代码。
  3. 实验表明,MARCO相较于Claude 3.5 Sonnet,平均运行时减少14.6%,集成Web搜索组件后性能提升30.9%。

📝 摘要(中文)

大型语言模型(LLMs)通过代码生成能力改变了软件开发,但其在高性计算(HPC)方面的有效性仍然有限。HPC代码需要专门的并行性、内存效率和特定架构的优化,而通用LLM通常忽略这些。我们提出了MARCO(多智能体反应式代码优化器),这是一个新颖的框架,通过专门的多智能体架构来增强LLM生成HPC代码。MARCO采用独立的智能体进行代码生成和性能评估,通过反馈循环逐步改进优化。一个关键的创新是MARCO的Web搜索组件,它可以从最近的会议记录和研究出版物中检索实时的优化技术,弥合了预训练LLM中的知识差距。我们在LeetCode 75问题集上的广泛评估表明,与单独使用Claude 3.5 Sonnet相比,MARCO实现了14.6%的平均运行时减少,而Web搜索组件的集成使基本MARCO系统的性能提高了30.9%。这些结果突出了多智能体系统解决高性能代码生成的专门要求的潜力,为特定领域的模型微调提供了一种经济高效的替代方案。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在高性能计算(HPC)代码优化方面的局限性。现有通用LLMs缺乏HPC领域所需的专业知识,无法充分利用并行性、内存效率和特定架构的优化策略,导致生成的代码性能不佳。

核心思路:论文的核心思路是构建一个多智能体系统,该系统能够模拟人类专家进行代码优化迭代的过程。通过将代码生成和性能评估解耦,并引入实时的知识检索机制,MARCO能够不断学习和应用最新的HPC优化技术,从而提升代码性能。

技术框架:MARCO框架包含以下主要模块:1) 代码生成智能体:负责生成初始的HPC代码;2) 性能评估智能体:负责评估代码的性能指标,如运行时间、内存占用等;3) Web搜索组件:负责从互联网上检索最新的HPC优化技术;4) 反馈循环:根据性能评估结果和检索到的优化技术,指导代码生成智能体进行代码优化。整个流程是一个迭代的过程,直到代码性能达到预定的目标。

关键创新:MARCO的关键创新在于其将多智能体架构与实时知识集成相结合。传统的代码优化方法往往依赖于预定义的规则或人工经验,而MARCO能够通过Web搜索组件动态地获取最新的HPC优化技术,从而弥补了预训练LLMs的知识差距。此外,多智能体架构使得代码生成和性能评估能够并行进行,加速了优化过程。

关键设计:MARCO的关键设计包括:1) 智能体的选择:论文选择了合适的LLM作为代码生成智能体,并设计了专门的性能评估指标;2) Web搜索策略:论文设计了有效的Web搜索策略,以确保检索到的优化技术与当前的代码上下文相关;3) 反馈机制:论文设计了有效的反馈机制,以指导代码生成智能体进行代码优化。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MARCO在LeetCode 75问题集上,相较于Claude 3.5 Sonnet,平均运行时减少14.6%。更重要的是,集成Web搜索组件后,MARCO的性能在基本系统的基础上提升了30.9%。这些数据表明,MARCO在HPC代码优化方面具有显著优势,能够有效提升代码性能。

🎯 应用场景

MARCO框架可应用于各种高性能计算领域,例如科学计算、工程仿真、金融建模等。通过自动优化HPC代码,MARCO可以显著提升计算效率,降低计算成本,加速科学发现和技术创新。未来,MARCO有望成为HPC领域重要的代码优化工具,推动HPC技术的普及和发展。

📄 摘要(原文)

Large language models (LLMs) have transformed software development through code generation capabilities, yet their effectiveness for high-performance computing (HPC) remains limited. HPC code requires specialized optimizations for parallelism, memory efficiency, and architecture-specific considerations that general-purpose LLMs often overlook. We present MARCO (Multi-Agent Reactive Code Optimizer), a novel framework that enhances LLM-generated code for HPC through a specialized multi-agent architecture. MARCO employs separate agents for code generation and performance evaluation, connected by a feedback loop that progressively refines optimizations. A key innovation is MARCO's web-search component that retrieves real-time optimization techniques from recent conference proceedings and research publications, bridging the knowledge gap in pre-trained LLMs. Our extensive evaluation on the LeetCode 75 problem set demonstrates that MARCO achieves a 14.6\% average runtime reduction compared to Claude 3.5 Sonnet alone, while the integration of the web-search component yields a 30.9\% performance improvement over the base MARCO system. These results highlight the potential of multi-agent systems to address the specialized requirements of high-performance code generation, offering a cost-effective alternative to domain-specific model fine-tuning.