EvoScientist: Towards Multi-Agent Evolving AI Scientists for End-to-End Scientific Discovery
作者: Yougang Lyu, Xi Zhang, Xinhao Yi, Yuyue Zhao, Shuyu Guo, Wenxiang Hu, Jan Piotrowski, Jakub Kaliski, Jacopo Urbani, Zaiqiao Meng, Lun Zhou, Xiaohui Yan
分类: cs.CL
发布日期: 2026-03-09
💡 一句话要点
EvoScientist:面向端到端科学发现的多智能体进化AI科学家框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI科学家 多智能体系统 科学发现 进化学习 持久记忆 大型语言模型 知识蒸馏
📋 核心要点
- 现有AI科学家系统依赖静态流程,无法根据历史交互调整,导致研究方向受限和重复实验。
- EvoScientist提出一个进化多智能体框架,通过持久记忆和自我进化不断改进研究策略。
- 实验表明,EvoScientist在想法生成和代码执行成功率方面优于现有系统,验证了其有效性。
📝 摘要(中文)
大型语言模型(LLMs)的日益普及使得AI科学家能够执行复杂的端到端科学发现任务,这些任务需要专业角色的协调,包括想法生成和实验执行。然而,目前最先进的AI科学家系统依赖于静态的、手工设计的流程,并且无法根据累积的交互历史进行调整。因此,这些系统忽略了有希望的研究方向,重复了失败的实验,并追求不可行的想法。为了解决这个问题,我们引入了EvoScientist,这是一个进化的多智能体AI科学家框架,它通过持久记忆和自我进化来不断改进研究策略。EvoScientist包含三个专门的智能体:用于科学想法生成的研究员智能体(RA)、用于实验实施和执行的工程师智能体(EA)以及将先前交互中的见解提炼为可重用知识的进化管理器智能体(EMA)。EvoScientist包含两个持久记忆模块:(i)一个构思记忆,它总结了来自排名最高的想法的可行的研究方向,同时记录了先前不成功的方向;(ii)一个实验记忆,它捕获了来自代码搜索轨迹和性能最佳的实现方案的有效数据处理和模型训练策略。这些模块使RA和EA能够检索相关的先前策略,从而随着时间的推移提高想法质量和代码执行成功率。实验表明,EvoScientist在科学想法生成方面优于7个开源和商业的最先进系统,通过自动和人工评估实现了更高的新颖性、可行性、相关性和清晰度。EvoScientist还通过多智能体进化显著提高了代码执行成功率,证明了持久记忆对于端到端科学发现的有效性。
🔬 方法详解
问题定义:现有AI科学家系统通常采用静态、人工设计的流程,无法有效利用历史经验进行学习和改进。这导致系统在探索科学问题时,容易陷入局部最优,重复失败的实验,或者无法识别有潜力的研究方向。因此,如何使AI科学家系统具备持续学习和进化的能力,是亟待解决的问题。
核心思路:EvoScientist的核心思路是构建一个多智能体系统,每个智能体负责不同的任务(想法生成、实验执行、策略进化),并通过持久记忆模块来存储和共享知识。通过这种方式,系统可以从历史交互中学习,不断改进研究策略,从而更有效地进行科学发现。
技术框架:EvoScientist包含三个主要智能体:研究员智能体(RA)、工程师智能体(EA)和进化管理器智能体(EMA)。RA负责生成科学想法,EA负责实验实施和执行,EMA负责从历史交互中提炼知识并更新智能体的策略。系统还包含两个持久记忆模块:构思记忆和实验记忆。构思记忆存储可行和不可行的研究方向,实验记忆存储有效的数据处理和模型训练策略。RA和EA可以从这些记忆模块中检索相关信息,从而提高想法质量和代码执行成功率。
关键创新:EvoScientist的关键创新在于其进化的多智能体架构和持久记忆机制。与传统的静态流程相比,EvoScientist能够根据历史经验动态调整研究策略,从而更有效地探索科学问题。持久记忆模块使得知识可以在智能体之间共享和积累,避免了重复学习和信息孤岛。
关键设计:构思记忆和实验记忆的设计是关键。构思记忆需要有效地总结和存储可行和不可行的研究方向,以便RA能够快速检索相关信息。实验记忆需要捕获有效的数据处理和模型训练策略,以便EA能够提高代码执行成功率。具体的实现细节(例如,记忆模块的存储格式、检索算法、更新策略)会影响系统的性能。
🖼️ 关键图片
📊 实验亮点
EvoScientist在科学想法生成方面优于7个开源和商业的最先进系统,通过自动和人工评估实现了更高的创新性、可行性、相关性和清晰度。此外,EvoScientist通过多智能体进化显著提高了代码执行成功率,证明了持久记忆对于端到端科学发现的有效性。具体性能数据和提升幅度在论文中有详细展示。
🎯 应用场景
EvoScientist可应用于各种科学研究领域,例如材料科学、生物学和化学。它可以加速新材料的发现、药物的研发以及对复杂生物系统的理解。通过自动化科学发现过程,EvoScientist可以帮助科学家更高效地进行研究,并发现新的科学知识。
📄 摘要(原文)
The increasing adoption of Large Language Models (LLMs) has enabled AI scientists to perform complex end-to-end scientific discovery tasks requiring coordination of specialized roles, including idea generation and experimental execution. However, most state-of-the-art AI scientist systems rely on static, hand-designed pipelines and fail to adapt based on accumulated interaction histories. As a result, these systems overlook promising research directions, repeat failed experiments, and pursue infeasible ideas. To address this, we introduce EvoScientist, an evolving multi-agent AI scientist framework that continuously improves research strategies through persistent memory and self-evolution. EvoScientist comprises three specialized agents: a Researcher Agent (RA) for scientific idea generation, an Engineer Agent (EA) for experiment implementation and execution, and an Evolution Manager Agent (EMA) that distills insights from prior interactions into reusable knowledge. EvoScientist contains two persistent memory modules: (i) an ideation memory, which summarizes feasible research directions from top-ranked ideas while recording previously unsuccessful directions; and (ii) an experimentation memory, which captures effective data processing and model training strategies derived from code search trajectories and best-performing implementations. These modules enable the RA and EA to retrieve relevant prior strategies, improving idea quality and code execution success rates over time. Experiments show that EvoScientist outperforms 7 open-source and commercial state-of-the-art systems in scientific idea generation, achieving higher novelty, feasibility, relevance, and clarity via automatic and human evaluation. EvoScientist also substantially improves code execution success rates through multi-agent evolution, demonstrating persistent memory's effectiveness for end-to-end scientific discovery.