ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

📄 arXiv: 2501.06590v1 📥 PDF

作者: Xiangru Tang, Tianyu Hu, Muyang Ye, Yanjun Shao, Xunjian Yin, Siru Ouyang, Wangchunshu Zhou, Pan Lu, Zhuosheng Zhang, Yilun Zhao, Arman Cohan, Mark Gerstein

分类: cs.CL, cs.AI

发布日期: 2025-01-11

🔗 代码/项目: GITHUB


💡 一句话要点

ChemAgent:基于自更新知识库的大语言模型提升化学推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 化学推理 大语言模型 自更新知识库 任务分解 知识检索 药物发现 材料科学

📋 核心要点

  1. 现有大语言模型在化学推理中面临领域公式处理、推理步骤准确执行和代码集成等挑战。
  2. ChemAgent通过构建动态自更新知识库,将化学任务分解为子任务,并从中检索和提炼信息来解决问题。
  3. 实验结果表明,ChemAgent在四个化学推理数据集上实现了显著的性能提升,最高可达46%(GPT-4)。

📝 摘要(中文)

化学推理通常涉及复杂的多步骤过程,需要精确的计算,即使是微小的错误也可能导致级联失败。此外,大语言模型(LLM)在处理特定领域的公式、准确执行推理步骤以及在处理化学推理任务时有效集成代码方面遇到困难。为了应对这些挑战,我们提出了ChemAgent,这是一个旨在通过动态的自更新知识库来提高LLM性能的新框架。该知识库通过将化学任务分解为子任务,并将这些子任务编译成一个结构化的集合来构建,以便在未来的查询中引用。然后,当遇到新问题时,ChemAgent从知识库(我们称之为记忆)中检索和提炼相关信息,从而促进有效的任务分解和解决方案的生成。我们的方法设计了三种类型的记忆和一个知识库增强的推理组件,使LLM能够通过经验随时间改进。来自SciBench的四个化学推理数据集上的实验结果表明,ChemAgent实现了高达46%(GPT-4)的性能提升,显著优于现有方法。我们的发现表明了未来应用的巨大潜力,包括药物发现和材料科学等任务。

🔬 方法详解

问题定义:论文旨在解决大语言模型在化学推理任务中表现不佳的问题。现有方法难以准确处理化学领域的复杂公式和多步骤推理,并且缺乏有效的知识积累和复用机制,导致推理过程容易出错,泛化能力不足。

核心思路:ChemAgent的核心思路是构建一个动态自更新的知识库,将化学推理任务分解为可复用的子任务,并利用大语言模型从知识库中检索、提炼相关信息,从而辅助推理过程。通过不断学习和积累经验,ChemAgent能够逐步提升化学推理能力。

技术框架:ChemAgent包含三个主要模块:1) 记忆模块:维护三种类型的记忆,包括任务分解记忆、公式记忆和推理步骤记忆;2) 检索模块:根据当前任务,从记忆模块中检索相关信息;3) 推理模块:利用检索到的信息,结合大语言模型进行推理,生成解决方案。整个流程是一个迭代更新的过程,每次推理的结果都会被用于更新记忆模块。

关键创新:ChemAgent的关键创新在于其动态自更新的知识库。与传统的静态知识库相比,ChemAgent的知识库能够根据实际任务进行调整和优化,从而更好地适应不同的化学推理场景。此外,ChemAgent还设计了专门的检索机制,能够高效地从知识库中找到相关信息。

关键设计:ChemAgent设计了三种类型的记忆:任务分解记忆用于记录任务分解的策略;公式记忆用于存储化学公式及其相关信息;推理步骤记忆用于记录推理过程中的关键步骤。检索模块使用相似度匹配算法,从记忆模块中检索相关信息。推理模块使用大语言模型生成解决方案,并根据实际结果对记忆模块进行更新。

🖼️ 关键图片

img_0

📊 实验亮点

ChemAgent在SciBench的四个化学推理数据集上进行了评估,实验结果表明,ChemAgent显著优于现有方法,最高实现了46%(GPT-4)的性能提升。这表明ChemAgent在提升大语言模型化学推理能力方面具有显著优势,验证了其有效性和实用性。

🎯 应用场景

ChemAgent具有广泛的应用前景,可用于药物发现、材料科学、化学工程等领域。通过提升大语言模型在化学推理方面的能力,ChemAgent可以帮助科研人员更高效地进行实验设计、数据分析和模型预测,加速科学研究的进程,并有望在实际工业生产中发挥重要作用。

📄 摘要(原文)

Chemical reasoning usually involves complex, multi-step processes that demand precise calculations, where even minor errors can lead to cascading failures. Furthermore, large language models (LLMs) encounter difficulties handling domain-specific formulas, executing reasoning steps accurately, and integrating code effectively when tackling chemical reasoning tasks. To address these challenges, we present ChemAgent, a novel framework designed to improve the performance of LLMs through a dynamic, self-updating library. This library is developed by decomposing chemical tasks into sub-tasks and compiling these sub-tasks into a structured collection that can be referenced for future queries. Then, when presented with a new problem, ChemAgent retrieves and refines pertinent information from the library, which we call memory, facilitating effective task decomposition and the generation of solutions. Our method designs three types of memory and a library-enhanced reasoning component, enabling LLMs to improve over time through experience. Experimental results on four chemical reasoning datasets from SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods. Our findings suggest substantial potential for future applications, including tasks such as drug discovery and materials science. Our code can be found at https://github.com/gersteinlab/chemagent