Evaluating LLMs for Zeolite Synthesis Event Extraction (ZSEE): A Systematic Analysis of Prompting Strategies
作者: Charan Prakash Rathore, Saumi Ray, Dhruv Kumar
分类: cs.CL, cs.AI
发布日期: 2025-12-17
备注: Under Review
💡 一句话要点
系统评估LLM在沸石合成事件抽取(ZSEE)中的提示策略有效性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 沸石合成 事件抽取 提示工程 科学信息提取
📋 核心要点
- 现有方法在沸石合成实验信息抽取方面存在不足,缺乏对LLM的系统评估,限制了材料发现的效率。
- 论文系统评估了零样本、少样本等多种提示策略对LLM在沸石合成事件抽取任务中的影响。
- 实验结果表明,LLM在事件类型分类上表现良好,但在细粒度参数提取上仍有提升空间,高级提示策略提升有限。
📝 摘要(中文)
从沸石合成实验流程中提取结构化信息对于材料发现至关重要,但现有方法尚未系统地评估大型语言模型(LLM)在此领域特定任务中的应用。本文旨在解决一个根本问题:将LLM应用于科学信息提取时,不同提示策略的有效性如何?我们关注四个关键子任务:事件类型分类(识别合成步骤)、触发词识别(定位事件提及)、论元角色提取(识别参数类型)和论元文本提取(提取参数值)。我们使用包含1530个标注句子的ZSEE数据集,评估了六个先进的LLM(Gemma-3-12b-it, GPT-5-mini, O4-mini, Claude-Haiku-3.5, DeepSeek reasoning and non-reasoning)在四种提示策略(零样本、少样本、事件特定和基于反思)下的表现。结果表明,LLM在事件类型分类上表现出色(80-90% F1),但在细粒度提取任务上表现一般,尤其是在论元角色和论元文本提取方面(50-65% F1)。GPT-5-mini表现出极端的提示敏感性,F1值变化范围为11-79%。值得注意的是,高级提示策略相对于零样本方法几乎没有提供改进,揭示了LLM的基本架构限制。错误分析表明存在系统性幻觉、过度泛化以及无法捕捉合成特定细微之处的问题。我们的研究结果表明,虽然LLM可以实现高层次的理解,但实验参数的精确提取需要领域自适应模型,并为科学信息提取提供定量基准。
🔬 方法详解
问题定义:论文旨在解决从沸石合成实验流程文本中自动提取结构化信息的问题。现有方法,特别是通用的大型语言模型,在处理这种领域特定且需要精确理解的任务时,表现出不足,例如无法准确识别实验参数和它们之间的关系。现有方法的痛点在于缺乏针对科学文本的领域适应性,导致提取精度不高,难以满足材料科学研究的需求。
核心思路:论文的核心思路是通过系统地评估不同的提示策略,来考察大型语言模型在沸石合成事件抽取任务中的性能。通过对比零样本、少样本、事件特定和基于反思等提示方法,分析LLM在不同提示下的表现差异,从而揭示LLM在处理科学文本信息提取任务时的优势和局限性。
技术框架:论文的技术框架主要包括以下几个阶段:1) 数据集准备:使用ZSEE数据集,该数据集包含1530个标注句子,涵盖沸石合成实验流程的各个方面。2) 模型选择:选择六个先进的LLM,包括Gemma-3-12b-it, GPT-5-mini, O4-mini, Claude-Haiku-3.5, DeepSeek reasoning and non-reasoning。3) 提示策略设计:设计四种提示策略,包括零样本、少样本、事件特定和基于反思。4) 评估指标:使用F1值作为评估指标,评估LLM在事件类型分类、触发词识别、论元角色提取和论元文本提取四个子任务上的性能。
关键创新:论文最重要的技术创新点在于对LLM在科学信息提取任务中的提示策略进行了系统性的评估和分析。以往的研究较少关注不同提示策略对LLM性能的影响,而本文通过对比多种提示策略,揭示了LLM在处理科学文本时对提示的敏感性以及存在的局限性。与现有方法的本质区别在于,本文不是简单地应用LLM,而是深入研究了如何更好地利用LLM来解决科学信息提取问题。
关键设计:论文的关键设计包括:1) 针对沸石合成事件抽取任务设计了四个具体的子任务,包括事件类型分类、触发词识别、论元角色提取和论元文本提取。2) 选择了具有代表性的LLM,涵盖不同架构和规模的模型。3) 设计了四种具有代表性的提示策略,包括零样本、少样本、事件特定和基于反思。4) 采用了F1值作为评估指标,能够综合考虑精确率和召回率,更全面地评估LLM的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在事件类型分类任务上表现出色,F1值达到80-90%。然而,在细粒度的论元角色和论元文本提取任务上,性能相对较低,F1值在50-65%之间。GPT-5-mini对提示非常敏感,F1值变化范围为11-79%。高级提示策略相对于零样本方法并没有显著的性能提升,表明LLM在处理科学文本时存在一定的局限性。
🎯 应用场景
该研究成果可应用于材料科学领域,加速新材料的发现和合成。通过自动提取沸石合成实验流程中的关键信息,研究人员可以更高效地分析和利用已有的实验数据,从而指导新的实验设计,缩短研发周期,降低研发成本。此外,该研究也为其他科学领域的文本信息提取提供了借鉴。
📄 摘要(原文)
Extracting structured information from zeolite synthesis experimental procedures is critical for materials discovery, yet existing methods have not systematically evaluated Large Language Models (LLMs) for this domain-specific task. This work addresses a fundamental question: what is the efficacy of different prompting strategies when applying LLMs to scientific information extraction? We focus on four key subtasks: event type classification (identifying synthesis steps), trigger text identification (locating event mentions), argument role extraction (recognizing parameter types), and argument text extraction (extracting parameter values). We evaluate four prompting strategies - zero-shot, few-shot, event-specific, and reflection-based - across six state-of-the-art LLMs (Gemma-3-12b-it, GPT-5-mini, O4-mini, Claude-Haiku-3.5, DeepSeek reasoning and non-reasoning) using the ZSEE dataset of 1,530 annotated sentences. Results demonstrate strong performance on event type classification (80-90\% F1) but modest performance on fine-grained extraction tasks, particularly argument role and argument text extraction (50-65\% F1). GPT-5-mini exhibits extreme prompt sensitivity with 11-79\% F1 variation. Notably, advanced prompting strategies provide minimal improvements over zero-shot approaches, revealing fundamental architectural limitations. Error analysis identifies systematic hallucination, over-generalization, and inability to capture synthesis-specific nuances. Our findings demonstrate that while LLMs achieve high-level understanding, precise extraction of experimental parameters requires domain-adapted models, providing quantitative benchmarks for scientific information extraction.