MaterialBENCH: Evaluating College-Level Materials Science Problem-Solving Abilities of Large Language Models

📄 arXiv: 2409.03161v2 📥 PDF

作者: Michiko Yoshitake, Yuta Suzuki, Ryo Igarashi, Yoshitaka Ushiku, Keisuke Nagato

分类: cs.CL, cond-mat.mtrl-sci

发布日期: 2024-09-05 (更新: 2024-10-31)


💡 一句话要点

MaterialBENCH:评估大语言模型在大学材料科学问题解决中的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 材料科学 大语言模型 基准数据集 问题解决 性能评估

📋 核心要点

  1. 现有方法缺乏针对材料科学领域大语言模型能力评估的专业基准数据集。
  2. MaterialBENCH通过构建包含自由回答和多项选择题的大学水平材料科学问题集,评估LLM的解题能力。
  3. 实验结果分析了不同LLM在MaterialBENCH上的表现差异,以及问题类型和系统消息的影响。

📝 摘要(中文)

本文构建了一个用于评估大语言模型(LLMs)在材料科学领域能力的大学水平基准数据集MaterialBENCH。该数据集包含基于大学教材的问题-答案对,问题类型分为自由回答型和多项选择型。多项选择题通过为正确答案添加三个错误选项构成,LLMs需从中选择一个作为答案。自由回答型和多项选择型问题的内容大部分重叠,仅答案格式不同。我们还使用MaterialBENCH对包括ChatGPT-3.5、ChatGPT-4、Bard(实验时版本)以及使用OpenAI API的GPT-3.5和GPT-4在内的LLMs进行了实验。分析并讨论了MaterialBENCH所测量的LLMs性能的异同,研究了同一模型在自由回答型和多项选择型问题上的性能差异,以及使用系统消息对多项选择题的影响。我们期望MaterialBENCH能够促进LLMs推理能力的进一步发展,以解决更复杂的问题,并最终为材料研究和发现做出贡献。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在解决大学水平材料科学问题方面的能力。现有方法缺乏专门针对该领域的基准数据集,难以有效评估LLMs的专业知识和推理能力。已有的通用型基准数据集无法充分考察LLMs在材料科学领域的特定知识和问题解决技巧。

核心思路:论文的核心思路是构建一个高质量、专业化的材料科学基准数据集MaterialBENCH,该数据集基于大学教材,包含自由回答型和多项选择型两种题型,能够全面评估LLMs在材料科学领域的知识掌握和问题解决能力。通过分析LLMs在不同题型上的表现,可以深入了解其优势和不足。

技术框架:MaterialBENCH的构建流程主要包括以下几个阶段:1) 从大学材料科学教材中选取问题;2) 将问题转化为自由回答型和多项选择型两种形式;3) 对于多项选择题,生成具有一定迷惑性的错误选项;4) 整理问题和答案,构建成数据集。评估流程包括:1) 将问题输入到不同的LLMs中;2) 收集LLMs的输出结果;3) 根据预定义的评估指标,对LLMs的答案进行评分;4) 分析不同LLMs的性能差异。

关键创新:该论文的关键创新在于构建了一个专门针对材料科学领域的大学水平基准数据集MaterialBENCH。与现有的通用型基准数据集相比,MaterialBENCH更加专业化,能够更准确地评估LLMs在材料科学领域的知识和能力。此外,MaterialBENCH同时包含自由回答型和多项选择型两种题型,可以更全面地评估LLMs的解题能力。

关键设计:多项选择题的设计关键在于生成具有一定迷惑性的错误选项,以增加LLMs选择正确答案的难度。论文中未明确说明如何生成这些错误选项,但推测可能采用了基于知识图谱、语义相似度等方法。此外,论文还研究了使用系统消息对多项选择题的影响,系统消息可能包含一些提示信息,以帮助LLMs更好地理解问题。

📊 实验亮点

实验结果表明,不同LLMs在MaterialBENCH上的表现存在显著差异。例如,ChatGPT-4在某些问题上的表现优于ChatGPT-3.5和Bard。此外,研究还发现,LLMs在自由回答型问题上的表现通常不如在多项选择题上,这可能与LLMs更擅长识别和选择已有答案有关。使用系统消息可以提高LLMs在多项选择题上的准确率。

🎯 应用场景

MaterialBENCH可用于评估和改进LLMs在材料科学领域的应用能力,例如辅助材料设计、预测材料性能、自动生成研究报告等。该数据集能够促进LLMs在材料科学领域的更广泛应用,加速材料研发进程,并为材料科学家提供更强大的工具。

📄 摘要(原文)

A college-level benchmark dataset for large language models (LLMs) in the materials science field, MaterialBENCH, is constructed. This dataset consists of problem-answer pairs, based on university textbooks. There are two types of problems: one is the free-response answer type, and the other is the multiple-choice type. Multiple-choice problems are constructed by adding three incorrect answers as choices to a correct answer, so that LLMs can choose one of the four as a response. Most of the problems for free-response answer and multiple-choice types overlap except for the format of the answers. We also conduct experiments using the MaterialBENCH on LLMs, including ChatGPT-3.5, ChatGPT-4, Bard (at the time of the experiments), and GPT-3.5 and GPT-4 with the OpenAI API. The differences and similarities in the performance of LLMs measured by the MaterialBENCH are analyzed and discussed. Performance differences between the free-response type and multiple-choice type in the same models and the influence of using system massages on multiple-choice problems are also studied. We anticipate that MaterialBENCH will encourage further developments of LLMs in reasoning abilities to solve more complicated problems and eventually contribute to materials research and discovery.