Open Source Planning & Control System with Language Agents for Autonomous Scientific Discovery

📄 arXiv: 2507.07257v2 📥 PDF

作者: Licong Xu, Milind Sarkar, Anto I. Lonappan, Íñigo Zubeldia, Pablo Villanueva-Domingo, Santiago Casas, Christian Fidler, Chetana Amancharla, Ujjwal Tiwari, Adrian Bayer, Chadi Ait Ekioui, Miles Cranmer, Adrian Dimitrov, James Fergusson, Kahaan Gandhi, Sven Krippendorf, Andrew Laverick, Julien Lesgourgues, Antony Lewis, Thomas Meier, Blake Sherwin, Kristen Surrao, Francisco Villaescusa-Navarro, Chi Wang, Xueqing Xu, Boris Bolliet

分类: cs.AI, astro-ph.IM, cs.CL, cs.MA

发布日期: 2025-07-09 (更新: 2025-07-11)

备注: Accepted contribution to the ICML 2025 Workshop on Machine Learning for Astrophysics. Code: https://github.com/CMBAgents/cmbagent Videos: https://www.youtube.com/@cmbagent HuggingFace: https://huggingface.co/spaces/astropilot-ai/cmbagent Cloud: https://cmbagent.cloud

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于语言代理的开源规划与控制系统cmbagent,用于自动化科学发现。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多代理系统 科学自动化 规划与控制 宇宙学参数测量

📋 核心要点

  1. 现有科学研究自动化方法依赖人工干预,效率较低,且难以处理复杂任务。
  2. 论文提出cmbagent,一个基于多语言代理的规划与控制系统,实现端到端的科学任务自动化。
  3. 实验表明,cmbagent在宇宙学参数测量任务和基准测试中,性能超越现有最佳LLM。

📝 摘要(中文)

本文介绍了一个用于自动化科学研究任务的多代理系统cmbagent(https://github.com/CMBAgents/cmbagent)。该系统由大约30个大型语言模型(LLM)代理组成,并采用规划与控制策略来编排代理工作流程,无需人工干预。每个代理专门负责不同的任务(对科学论文和代码库执行检索、编写代码、解释结果、评论其他代理的输出),并且该系统能够在本地执行代码。我们成功地将cmbagent应用于执行博士水平的宇宙学任务(使用超新星数据测量宇宙学参数),并在两个基准数据集上评估了其性能,发现其性能优于最先进的LLM。源代码可在GitHub上获得,演示视频也已提供,该系统已部署在HuggingFace上,并将在云端提供。

🔬 方法详解

问题定义:现有科学研究流程自动化程度低,依赖人工干预,效率低下。尤其是在复杂任务中,需要研究人员具备多方面的专业知识,耗时耗力。现有方法难以充分利用大型语言模型(LLM)的潜力,实现端到端的自动化科学发现。

核心思路:论文的核心思路是构建一个由多个专业化LLM代理组成的系统,通过规划与控制策略协调这些代理的工作流程,从而实现科学研究任务的自动化。每个代理负责特定的子任务,例如文献检索、代码编写、结果分析等,并通过协作完成整个研究流程。这种模块化设计使得系统能够灵活地适应不同的研究任务。

技术框架:cmbagent系统采用规划与控制架构,包含以下主要模块:1) 任务规划器:负责将高层次的研究目标分解为一系列可执行的子任务。2) 代理管理器:负责管理和调度各个LLM代理,根据任务规划器的指令分配任务。3) 知识库:存储科学论文、代码库等信息,供代理检索和利用。4) 代码执行器:负责执行代理生成的代码,并将结果反馈给代理。5) 结果评估器:负责评估代理生成的结果,并提供反馈以改进后续步骤。

关键创新:该论文的关键创新在于将大型语言模型应用于科学研究的自动化,并提出了一种基于多代理协作的规划与控制框架。与传统的自动化方法相比,cmbagent能够利用LLM的自然语言理解和生成能力,更灵活地处理复杂的科学任务。此外,该系统是开源的,方便研究人员进行扩展和定制。

关键设计:cmbagent系统包含约30个LLM代理,每个代理都经过专门训练,以执行特定的任务。例如,文献检索代理使用科学论文数据库进行训练,代码编写代理使用代码库进行训练。代理之间的通信采用自然语言,方便理解和调试。系统采用迭代式的规划与控制策略,根据结果评估器的反馈不断调整任务规划和代理行为。

🖼️ 关键图片

img_0

📊 实验亮点

cmbagent在宇宙学参数测量任务中表现出色,能够自动完成博士水平的研究任务。在两个基准数据集上的评估结果表明,cmbagent的性能优于最先进的LLM,表明其在自动化科学研究方面具有显著优势。具体性能数据和对比基线在论文中有详细描述。

🎯 应用场景

该研究成果可应用于各种科学研究领域,例如物理学、化学、生物学等。通过自动化科学研究流程,可以加速科学发现,降低研究成本,并使研究人员能够专注于更具创造性的工作。未来,该系统有望成为科研人员的重要辅助工具,推动科学研究的进步。

📄 摘要(原文)

We present a multi-agent system for automation of scientific research tasks, cmbagent (https://github.com/CMBAgents/cmbagent). The system is formed by about 30 Large Language Model (LLM) agents and implements a Planning & Control strategy to orchestrate the agentic workflow, with no human-in-the-loop at any point. Each agent specializes in a different task (performing retrieval on scientific papers and codebases, writing code, interpreting results, critiquing the output of other agents) and the system is able to execute code locally. We successfully apply cmbagent to carry out a PhD level cosmology task (the measurement of cosmological parameters using supernova data) and evaluate its performance on two benchmark sets, finding superior performance over state-of-the-art LLMs. The source code is available on GitHub, demonstration videos are also available, and the system is deployed on HuggingFace and will be available on the cloud.