ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models

📄 arXiv: 2409.13989v1 📥 PDF

作者: Yuqing Huang, Rongyang Zhang, Xuesong He, Xuyang Zhi, Hao Wang, Xin Li, Feiyang Xu, Deguang Liu, Huadong Liang, Yi Li, Jian Cui, Zimu Liu, Shijin Wang, Guoping Hu, Guiquan Liu, Qi Liu, Defu Lian, Enhong Chen

分类: cs.CL, cs.AI, cs.LG, physics.chem-ph, q-bio.BM

发布日期: 2024-09-21

🔗 代码/项目: GITHUB


💡 一句话要点

提出ChemEval以解决化学领域LLM评估不足问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 化学评估 任务设计 模型评估 数据收集 化学研究 机器学习 基准测试

📋 核心要点

  1. 现有的化学领域LLM评估基准未能满足研究人员的具体需求,导致对模型能力的评估不足。
  2. 提出ChemEval基准,通过识别化学中的四个进阶水平,评估LLMs在42个化学任务中的表现。
  3. 实验结果显示,通用LLMs在化学任务中的表现不如专门化LLMs,后者在化学能力上更强,但文学理解能力较弱。

📝 摘要(中文)

随着大型语言模型(LLMs)在化学领域的应用日益增加,针对化学任务的评估基准显得尤为重要。然而,现有基准未能满足化学研究专业人士的具体需求。为此,本文提出了ChemEval,全面评估LLMs在多种化学任务中的能力。ChemEval识别了化学中的四个关键进阶水平,评估了12个维度的LLMs在42个不同化学任务中的表现。这些任务基于开源数据和化学专家精心设计的数据,确保了实际价值。在实验中,我们在零-shot和few-shot学习情境下评估了12个主流LLMs,结果表明,尽管通用LLMs在文献理解和指令遵循方面表现优异,但在需要高级化学知识的任务中表现不足。相反,专门化的LLMs在化学能力上有所增强,但文学理解能力下降。这表明LLMs在应对复杂化学任务时有显著的提升潜力。

🔬 方法详解

问题定义:本文旨在解决现有化学领域LLM评估基准不足的问题,现有方法未能有效满足化学研究的具体需求,导致对模型能力的评估不够全面。

核心思路:ChemEval基准通过识别化学领域的四个关键进阶水平,结合12个维度对42个化学任务进行评估,确保任务的实际价值和有效性。

技术框架:ChemEval的整体架构包括任务设计、数据收集和模型评估三个主要模块。任务设计基于开源数据和专家输入,数据收集确保任务的多样性和复杂性,模型评估则在零-shot和few-shot学习情境下进行。

关键创新:ChemEval的创新点在于其多层次的评估框架和任务设计,能够全面评估LLMs在化学领域的能力,与现有单一维度的评估方法形成鲜明对比。

关键设计:在实验中,选择了12个主流LLMs,并设计了精心挑选的示例和提示,以确保评估的有效性和可靠性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果显示,通用LLMs如GPT-4和Claude-3.5在文献理解和指令遵循方面表现优异,但在需要高级化学知识的任务中表现不足。相比之下,专门化LLMs在化学能力上有显著提升,但文学理解能力有所下降。这表明LLMs在复杂化学任务中的潜力尚待挖掘。

🎯 应用场景

ChemEval的研究成果可广泛应用于化学研究、药物开发和材料科学等领域,帮助研究人员更好地评估和选择适合特定任务的LLMs,从而推动化学领域的进步和创新。未来,该基准有望为LLMs在化学领域的应用提供更深入的指导和支持。

📄 摘要(原文)

There is a growing interest in the role that LLMs play in chemistry which lead to an increased focus on the development of LLMs benchmarks tailored to chemical domains to assess the performance of LLMs across a spectrum of chemical tasks varying in type and complexity. However, existing benchmarks in this domain fail to adequately meet the specific requirements of chemical research professionals. To this end, we propose \textbf{\textit{ChemEval}}, which provides a comprehensive assessment of the capabilities of LLMs across a wide range of chemical domain tasks. Specifically, ChemEval identified 4 crucial progressive levels in chemistry, assessing 12 dimensions of LLMs across 42 distinct chemical tasks which are informed by open-source data and the data meticulously crafted by chemical experts, ensuring that the tasks have practical value and can effectively evaluate the capabilities of LLMs. In the experiment, we evaluate 12 mainstream LLMs on ChemEval under zero-shot and few-shot learning contexts, which included carefully selected demonstration examples and carefully designed prompts. The results show that while general LLMs like GPT-4 and Claude-3.5 excel in literature understanding and instruction following, they fall short in tasks demanding advanced chemical knowledge. Conversely, specialized LLMs exhibit enhanced chemical competencies, albeit with reduced literary comprehension. This suggests that LLMs have significant potential for enhancement when tackling sophisticated tasks in the field of chemistry. We believe our work will facilitate the exploration of their potential to drive progress in chemistry. Our benchmark and analysis will be available at {\color{blue} \url{https://github.com/USTC-StarTeam/ChemEval}}.