Multi-Agent Orchestration for High-Throughput Materials Screening on a Leadership-Class System

📄 arXiv: 2604.07681v1 📥 PDF

作者: Thang Duc Pham, Harikrishna Tummalapalli, Fakhrul Hasan Bhuiyan, Álvaro Vázquez Mayagoitia, Christine Simpson, Riccardo Balin, Venkatram Vishwanath, Murat Keçeli

分类: cs.AI

发布日期: 2026-04-09


💡 一句话要点

提出基于多Agent协同的高通量材料筛选框架,提升HPC系统利用率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多Agent系统 高通量筛选 高性能计算 材料发现 大语言模型 工作流引擎 金属有机框架

📋 核心要点

  1. 现有单Agent架构和串行工具调用在高通量模拟中形成瓶颈,无法充分利用百亿亿次级计算资源。
  2. 论文提出分层多Agent框架,通过中央规划Agent和并行执行Agent集群实现动态任务分配和高效协同。
  3. 实验表明,该框架在Aurora超算上实现了高效可扩展的执行,降低了协调开销,提高了任务完成率。

📝 摘要(中文)

本文提出了一种可扩展的、分层多Agent框架,用于协调高通量筛选任务,旨在解决将人工智能(AI)与高性能计算(HPC)集成时,大规模部署基于大语言模型(LLM)的Agent所面临的挑战。该框架采用规划-执行器架构,利用中央规划Agent动态划分工作负载,并将子任务分配给并行执行Agent集群。所有执行Agent通过共享的模型上下文协议(MCP)服务器与Parsl工作流引擎交互,从而协调任务。为了验证该框架,使用gpt-oss-120b模型对Computation-Ready Experimental (CoRE) 金属有机框架(MOF)数据库进行了高通量筛选,用于大气水收集。实验结果表明,该Agent框架能够在Aurora超级计算机上高效、可扩展地执行任务,具有较低的协调开销和较高的任务完成率。这项工作为HPC系统上LLM驱动的科学自动化建立了一个灵活的范例,并广泛适用于材料发现等领域。

🔬 方法详解

问题定义:论文旨在解决大规模材料筛选中,如何高效利用高性能计算资源的问题。现有方法,特别是基于单Agent架构和串行工具调用的方法,在高通量模拟中容易形成序列化瓶颈,无法充分发挥百亿亿次级计算系统的并行计算能力。这限制了材料发现的速度和效率。

核心思路:论文的核心思路是将大规模筛选任务分解为多个子任务,并分配给多个Agent并行执行。通过中央规划Agent进行任务调度和资源分配,实现负载均衡和高效协同。这种分而治之的策略能够充分利用HPC系统的并行性,显著提高筛选效率。

技术框架:该框架采用分层多Agent架构,包含以下主要模块:1) 中央规划Agent:负责接收用户请求,将任务分解为子任务,并根据资源情况将子任务分配给执行Agent。2) 并行执行Agent集群:每个Agent负责执行分配到的子任务,例如分子动力学模拟、性质预测等。3) 模型上下文协议(MCP)服务器:作为Agent之间的通信桥梁,负责协调任务执行,共享数据和模型。4) Parsl工作流引擎:用于管理和调度任务,确保任务按照正确的顺序执行。

关键创新:最重要的技术创新点是多Agent协同架构,它将大规模任务分解为多个并行子任务,并通过中央规划Agent进行动态调度。这种架构能够充分利用HPC系统的并行性,显著提高任务执行效率。与传统的单Agent架构相比,该方法避免了序列化瓶颈,实现了更高的吞吐量。

关键设计:论文使用了开源大语言模型gpt-oss-120b作为中央规划Agent,负责任务分解和调度。执行Agent使用Parsl工作流引擎进行任务管理。模型上下文协议(MCP)服务器采用共享内存机制,实现Agent之间的高效通信。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文使用gpt-oss-120b模型对CoRE MOF数据库进行了高通量筛选,用于大气水收集。实验结果表明,该Agent框架能够在Aurora超级计算机上高效、可扩展地执行任务,具有较低的协调开销和较高的任务完成率。具体的性能数据和提升幅度在论文中未明确给出,属于未知信息。

🎯 应用场景

该研究成果可广泛应用于材料科学、化学、生物医药等领域的高通量筛选任务。例如,可以用于加速新材料的发现、药物的筛选和优化、以及催化剂的设计等。通过结合AI和HPC,该框架有望显著缩短研发周期,降低研发成本,加速科学发现。

📄 摘要(原文)

The integration of Artificial Intelligence (AI) with High-Performance Computing (HPC) is transforming scientific workflows from human-directed pipelines into adaptive systems capable of autonomous decision-making. Large language models (LLMs) play a critical role in autonomous workflows; however, deploying LLM-based agents at scale remains a significant challenge. Single-agent architectures and sequential tool calls often become serialization bottlenecks when executing large-scale simulation campaigns, failing to utilize the massive parallelism of exascale resources. To address this, we present a scalable, hierarchical multi-agent framework for orchestrating high-throughput screening campaigns. Our planner-executor architecture employs a central planning agent to dynamically partition workloads and assign subtasks to a swarm of parallel executor agents. All executor agents interface with a shared Model Context Protocol (MCP) server that orchestrates tasks via the Parsl workflow engine. To demonstrate this framework, we employed the open-weight gpt-oss-120b model to orchestrate a high-throughput screening of the Computation-Ready Experimental (CoRE) Metal-Organic Framework (MOF) database for atmospheric water harvesting. The results demonstrate that the proposed agentic framework enables efficient and scalable execution on the Aurora supercomputer, with low orchestration overhead and high task completion rates. This work establishes a flexible paradigm for LLM-driven scientific automation on HPC systems, with broad applicability to materials discovery and beyond.