The FM Agent

📄 arXiv: 2510.26144v1 📥 PDF

作者: Annan Li, Chufan Wu, Zengle Ge, Yee Hin Chong, Zhinan Hou, Lizhe Cao, Cheng Ju, Jianmin Wu, Huaiming Li, Haobo Zhang, Shenghao Feng, Mo Zhao, Fengzhi Qiu, Rui Yang, Mengmeng Zhang, Wenyi Zhu, Yingying Sun, Quan Sun, Shunhao Yan, Danyu Liu, Dawei Yin, Dou Shen

分类: cs.AI

发布日期: 2025-10-30


💡 一句话要点

提出FM Agent以解决复杂科学与工程问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 自主AI 进化搜索 多代理框架 科学发现 工程优化

📋 核心要点

  1. 现有方法在处理复杂科学与工程问题时,往往依赖人工干预,效率低下且难以扩展。
  2. FM Agent通过结合LLM推理与进化搜索,提供了一种全新的多代理框架,能够自动化复杂的发现过程。
  3. 实验结果显示,FM Agent在多个基准测试中表现优异,如ALE-Bench上达到1976.3分,提升5.2%。

📝 摘要(中文)

大型语言模型(LLMs)正在推动自主AI研究代理的发展,以实现科学和工程发现。我们提出了FM Agent,这是一种新颖的通用多代理框架,利用LLM推理与大规模进化搜索的协同组合,解决复杂的现实世界挑战。FM Agent的核心集成了多个关键创新:1)结合专家指导的冷启动初始化阶段,2)用于迭代优化的新型进化采样策略,3)结合正确性、有效性和LLM监督反馈的领域特定评估器,以及4)基于Ray构建的分布式异步执行基础设施。我们的系统在操作研究、机器学习、GPU内核优化和经典数学问题等多个领域进行了评估,展示了广泛的适用性。FM Agent在没有人工干预或调优的情况下,达到了最先进的结果。

🔬 方法详解

问题定义:FM Agent旨在解决复杂科学与工程问题的自动化发现,现有方法通常需要大量人工干预,导致效率低下和难以扩展。

核心思路:通过结合大型语言模型的推理能力与进化搜索策略,FM Agent能够在没有人工干预的情况下自动优化解决方案,从而提高效率和准确性。

技术框架:FM Agent的整体架构包括冷启动初始化、进化采样策略、领域特定评估器和分布式异步执行模块。冷启动阶段利用专家指导,进化采样策略用于迭代优化,评估器则综合多种反馈进行评估。

关键创新:FM Agent的关键创新在于其冷启动阶段的专家指导和新型进化采样策略,使得系统能够在复杂问题上实现自我优化,与传统方法相比,显著减少了人工干预的需求。

关键设计:在设计中,FM Agent采用了领域特定的评估器,结合了正确性、有效性和LLM监督反馈,确保优化过程的高效性和准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FM Agent在多个基准测试中取得了显著的性能提升,例如在ALE-Bench上达到1976.3分,提升5.2%;在MLE-Bench上达到43.56%,提升4.0个百分点;在KernelBench上实现了高达20倍的速度提升,展现出其卓越的优化能力。

🎯 应用场景

FM Agent在多个领域展现出广泛的应用潜力,包括操作研究、机器学习和GPU内核优化等。它能够加速大型企业的研发工作流程,自动化复杂的发现过程,从而推动科学研究和工程进步,具有重要的社会影响。

📄 摘要(原文)

Large language models (LLMs) are catalyzing the development of autonomous AI research agents for scientific and engineering discovery. We present FM Agent, a novel and general-purpose multi-agent framework that leverages a synergistic combination of LLM-based reasoning and large-scale evolutionary search to address complex real-world challenges. The core of FM Agent integrates several key innovations: 1) a cold-start initialization phase incorporating expert guidance, 2) a novel evolutionary sampling strategy for iterative optimization, 3) domain-specific evaluators that combine correctness, effectiveness, and LLM-supervised feedback, and 4) a distributed, asynchronous execution infrastructure built on Ray. Demonstrating broad applicability, our system has been evaluated across diverse domains, including operations research, machine learning, GPU kernel optimization, and classical mathematical problems. FM Agent reaches state-of-the-art results autonomously, without human interpretation or tuning -- 1976.3 on ALE-Bench (+5.2\%), 43.56\% on MLE-Bench (+4.0pp), up to 20x speedups on KernelBench, and establishes new state-of-the-art(SOTA) results on several classical mathematical problems. Beyond academic benchmarks, FM Agent shows considerable promise for both large-scale enterprise R\&D workflows and fundamental scientific research, where it can accelerate innovation, automate complex discovery processes, and deliver substantial engineering and scientific advances with broader societal impact.