El Agente Forjador: Task-Driven Agent Generation for Quantum Simulation

📄 arXiv: 2604.14609v1 📥 PDF

作者: Zijian Zhang, Aiwei Yin, Amaan Baweja, Jiaru Bai, Ignacio Gustin, Varinia Bernales, Alán Aspuru-Guzik

分类: cs.AI, physics.comp-ph

发布日期: 2026-04-16


💡 一句话要点

El Agente Forjador:面向量子模拟的任务驱动型智能体生成框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 智能体 量子模拟 工具生成 自主学习 大型语言模型

📋 核心要点

  1. 现有智能体系统依赖人工管理的静态工具集,难以适应新领域和不断发展的科学计算库。
  2. El Agente Forjador 提出了一种多智能体框架,通过自主生成、验证和重用工具来解决科学任务。
  3. 实验表明,该框架在量子化学和量子动力学任务中,相比基线方法,提高了准确性并降低了API成本。

📝 摘要(中文)

AI for science 旨在加速科学发现进程。大型语言模型(LLMs)和智能体工作流的出现,加速了越来越多的科学任务。然而,当前大多数智能体系统依赖于静态、人工管理的工具集,这阻碍了它们对新领域和不断发展的库的适应。我们提出了 El Agente Forjador,一个多智能体框架,其中通用编码智能体通过工具分析、工具生成、任务执行和迭代解决方案评估的四个阶段自主地锻造、验证和重用计算工具。我们在量子化学和量子动力学的 24 个任务上,评估了五种编码智能体设置,并比较了三种操作模式:每个任务零样本生成工具、重用课程构建的工具集,以及直接使用编码智能体解决问题作为基线。我们发现,我们的工具生成和重用框架始终优于基线。我们还表明,重用由更强的编码智能体构建的工具集可以降低 API 成本,并显着提高较弱编码智能体的解决方案质量。案例研究进一步表明,为不同领域锻造的工具可以组合起来解决混合任务。总而言之,这些结果表明,基于 LLM 的智能体可以利用其科学知识和编码能力自主构建可重用的科学工具,这指向了一种范式,即智能体的能力由它们旨在解决的任务定义,而不是由显式设计的实现定义。

🔬 方法详解

问题定义:现有基于LLM的智能体在科学计算领域应用时,通常依赖于预定义的工具集。这种方式的局限性在于,无法灵活适应新的科学领域和快速发展的计算库,需要人工维护和更新工具集,成本高昂且效率低下。因此,如何让智能体自主地生成、验证和重用工具,以适应不同的科学任务,是本文要解决的核心问题。

核心思路:本文的核心思路是构建一个多智能体框架,赋予智能体自主生成和管理工具的能力。通过让智能体分析任务需求,自动编写、测试和优化代码,从而创建出满足特定任务需求的工具。这些工具可以被存储和重用,从而提高解决新任务的效率和质量。这种方法的核心在于将智能体的能力定义为解决特定任务的能力,而不是依赖于预先设定的工具集。

技术框架:El Agente Forjador 框架包含四个主要阶段:1) 工具分析:智能体分析任务需求,确定所需的工具功能。2) 工具生成:智能体编写代码,生成满足需求的工具。3) 任务执行:智能体使用生成的工具执行任务。4) 迭代解决方案评估:智能体评估解决方案的质量,并根据评估结果迭代优化工具。该框架采用多智能体架构,不同的智能体负责不同的任务,例如工具生成、测试和优化。

关键创新:该论文的关键创新在于提出了一个完全自主的工具生成和重用框架。与传统的依赖人工设计的工具集的方法不同,El Agente Forjador 能够根据任务需求动态地生成和优化工具。这种方法能够更好地适应新的科学领域和不断发展的计算库,提高了智能体解决科学问题的能力。

关键设计:该框架的关键设计包括:1) 使用大型语言模型作为编码智能体,赋予其强大的代码生成能力。2) 设计了迭代解决方案评估机制,通过不断优化工具来提高解决方案的质量。3) 采用了多智能体架构,将不同的任务分配给不同的智能体,提高了效率。论文比较了零样本生成、重用课程构建工具集和直接问题求解三种模式,并评估了不同编码智能体的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,El Agente Forjador 框架在量子化学和量子动力学任务中,相比于基线方法,能够显著提高解决方案的准确性。此外,重用由更强的编码智能体构建的工具集,可以降低 API 成本,并大幅提升较弱编码智能体的性能。案例研究还表明,为不同领域生成的工具可以组合起来解决混合任务。

🎯 应用场景

该研究成果可应用于各种科学计算领域,例如量子化学、材料科学、药物发现等。通过自主生成和重用工具,可以加速科学研究进程,降低研发成本,并发现新的科学规律。未来,该框架可以扩展到其他领域,例如机器人、自动化等,实现更智能化的任务执行。

📄 摘要(原文)

AI for science promises to accelerate the discovery process. The advent of large language models (LLMs) and agentic workflows enables the expediting of a growing range of scientific tasks. However, most of the current generation of agentic systems depend on static, hand-curated toolsets that hinder adaptation to new domains and evolving libraries. We present El Agente Forjador, a multi-agent framework in which universal coding agents autonomously forge, validate, and reuse computational tools through a four-stage workflow of tool analysis, tool generation, task execution, and iterative solution evaluation. Evaluated across 24 tasks spanning quantum chemistry and quantum dynamics on five coding agent setups, we compare three operating modes: zero-shot generation of tools per task, reuse of a curriculum-built toolset, and direct problem-solving with the coding agents as the baseline. We find that our tool generation and reuse framework consistently improves accuracy over the baseline. We also show that reusing a toolset built by a stronger coding agent can reduce API cost and substantially raises the solution quality for weaker coding agents. Case studies further demonstrate that tools forged for different domains can be combined to solve hybrid tasks. Taken together, these results show that LLM-based agents can use their scientific knowledge and coding capabilities to autonomously build reusable scientific tools, pointing toward a paradigm in which agent capabilities are defined by the tasks they are designed to solve rather than by explicitly engineered implementations.