Assessing the Chemical Intelligence of Large Language Models

📄 arXiv: 2505.07735v2 📥 PDF

作者: Nicholas T. Runcie, Charlotte M. Deane, Fergus Imrie

分类: cs.LG

发布日期: 2025-05-12 (更新: 2025-07-10)


💡 一句话要点

ChemIQ:评估大型语言模型在有机化学推理能力的新基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 化学推理 有机化学 基准测试 分子理解

📋 核心要点

  1. 现有化学领域基准测试多为选择题,难以真实反映LLM在实际化学问题中的推理能力。
  2. 提出ChemIQ基准,要求LLM生成简答题,考察其在分子理解和化学推理方面的能力。
  3. 实验表明,推理模型在ChemIQ上表现出色,能够执行SMILES转换、NMR数据解析等复杂任务。

📝 摘要(中文)

本文评估了大型语言模型(LLM)在化学任务中的表现,特别是无需外部工具辅助的化学推理能力。作者构建了一个名为ChemIQ的新基准,包含816个问题,考察有机化学的核心概念,侧重于分子理解和化学推理。与以往主要采用多项选择题的基准不同,ChemIQ要求模型构建简答题,更贴近实际应用。实验结果表明,OpenAI的o3-mini、Google的Gemini Pro 2.5和DeepSeek R1等推理模型在最高推理模式下,正确率达到50%-57%,且更高的推理水平显著提升了所有任务的性能。这些模型显著优于非推理模型(准确率仅为3%-7%)。研究发现,LLM现在可以将SMILES字符串转换为IUPAC名称,这是早期模型无法完成的任务。此外,最新的推理模型能够从1D和2D 1H和13C NMR数据中解析结构,Gemini Pro 2.5能够为大约90%的包含最多10个重原子的分子正确生成SMILES字符串,并在一个案例中解决了包含25个重原子的结构。对于每个任务,研究都发现推理过程与人类化学家的推理过程相似。结果表明,最新的推理模型在某些情况下可以执行高级化学推理。

🔬 方法详解

问题定义:现有的大型语言模型在化学领域的应用受到限制,之前的基准测试主要采用多项选择题,无法充分评估模型在实际化学问题中的推理能力。因此,需要一个更贴近实际应用、能够考察模型深层化学知识和推理能力的新基准。

核心思路:本文的核心思路是构建一个名为ChemIQ的新基准,该基准包含简答题,要求模型能够理解分子结构、进行化学推理,并生成相应的答案。通过这种方式,可以更全面、更准确地评估LLM在化学领域的智能水平。

技术框架:ChemIQ基准包含816个问题,涵盖有机化学的核心概念,侧重于分子理解和化学推理。问题类型包括SMILES字符串到IUPAC名称的转换、NMR数据解析等。研究人员使用不同的LLM(包括推理模型和非推理模型)在ChemIQ上进行测试,并分析模型的表现。

关键创新:ChemIQ基准的主要创新在于其简答题的形式,这种形式更贴近实际应用,能够更真实地反映LLM在化学领域的推理能力。此外,该基准还涵盖了多种类型的化学问题,能够全面评估模型的化学知识和推理能力。

关键设计:ChemIQ基准中的问题设计需要保证难度适中,既能够考察模型的化学知识,又不会过于简单,失去区分度。此外,为了评估模型的推理过程,研究人员还对模型的输出进行了详细的分析,以了解模型是如何解决问题的。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,推理模型在ChemIQ基准上表现显著优于非推理模型,最高准确率达到50%-57%。Gemini Pro 2.5能够为大约90%的包含最多10个重原子的分子正确生成SMILES字符串,并在一个案例中解决了包含25个重原子的结构。这些结果表明,最新的推理模型在某些情况下可以执行高级化学推理。

🎯 应用场景

该研究成果可应用于药物发现、材料科学等领域,帮助化学家利用LLM进行分子设计、反应预测、结构解析等任务,加速科研进程。未来,结合化学数据库和实验数据,LLM有望成为强大的化学研究工具,推动化学领域的智能化发展。

📄 摘要(原文)

Large Language Models are versatile, general-purpose tools with a wide range of applications. Recently, the advent of "reasoning models" has led to substantial improvements in their abilities in advanced problem-solving domains such as mathematics and software engineering. In this work, we assessed the ability of reasoning models to perform chemistry tasks directly, without any assistance from external tools. We created a novel benchmark, called ChemIQ, consisting of 816 questions assessing core concepts in organic chemistry, focused on molecular comprehension and chemical reasoning. Unlike previous benchmarks, which primarily use multiple choice formats, our approach requires models to construct short-answer responses, more closely reflecting real-world applications. The reasoning models, OpenAI's o3-mini, Google's Gemini Pro 2.5, and DeepSeek R1, answered 50%-57% of questions correctly in the highest reasoning modes, with higher reasoning levels significantly increasing performance on all tasks. These models substantially outperformed the non-reasoning models which achieved only 3%-7% accuracy. We found that Large Language Models can now convert SMILES strings to IUPAC names, a task earlier models were unable to perform. Additionally, we show that the latest reasoning models can elucidate structures from 1D and 2D 1H and 13C NMR data, with Gemini Pro 2.5 correctly generating SMILES strings for around 90% of molecules containing up to 10 heavy atoms, and in one case solving a structure comprising 25 heavy atoms. For each task, we found evidence that the reasoning process mirrors that of a human chemist. Our results demonstrate that the latest reasoning models can, in some cases, perform advanced chemical reasoning.