Extracting chemical food safety hazards from the scientific literature automatically using large language models

📄 arXiv: 2405.15787v1 📥 PDF

作者: Neris Özen, Wenjuan Mu, Esther D. van Asselt, Leonieke M. van den Bulk

分类: cs.IR, cs.CL

发布日期: 2024-05-01

备注: 31 pages, 5 figures


💡 一句话要点

利用大型语言模型自动从科学文献中提取食品安全化学危害

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 食品安全 化学危害 大型语言模型 信息提取 自然语言处理

📋 核心要点

  1. 食品安全文献数量庞大,专家难以全面掌握所有相关信息,亟需自动化方法。
  2. 本研究利用大型语言模型,通过优化提示策略,直接从科学摘要中提取化学危害信息。
  3. 实验表明,分步提示策略效果最佳,平均准确率达93%,成功识别多种食品污染物。

📝 摘要(中文)

食品安全领域的科学文章数量在过去几十年中持续增长。食品安全专家阅读所有与食品安全和食品链中危害相关的文献变得不切实际。然而,食品安全专家了解最新的发现并能够以简单扼要的方式获取这些信息非常重要。本研究提出了一种利用大型语言模型自动从科学文献中提取化学危害的方法。该大型语言模型即插即用,直接应用于科学摘要,无需对模型进行额外的训练或使用大型计算集群。研究测试了三种不同的提示模型的方式,以评估哪种方式最适合当前的任务。使用两种验证食品(绿叶蔬菜和贝类)优化提示,并使用三种测试食品(乳制品、玉米和鲑鱼)评估最佳提示的最终性能。提示的具体措辞对结果有相当大的影响。将任务分解为更小步骤的提示表现最佳,平均准确率达到93%,并且包含食品监测计划中已包含的许多化学污染物,验证了成功检索食品安全领域的相关危害。结果表明,大型语言模型对于从科学文献中自动提取信息的任务具有重要价值。

🔬 方法详解

问题定义:该论文旨在解决食品安全专家难以从海量科学文献中快速准确地提取化学危害信息的问题。现有方法通常依赖人工阅读和筛选,效率低下且容易遗漏关键信息。因此,需要一种自动化的信息提取方法,能够快速准确地识别文献中提及的化学危害。

核心思路:该论文的核心思路是利用大型语言模型(LLM)的强大自然语言处理能力,通过精心设计的提示(prompt)引导LLM从科学文献摘要中提取化学危害信息。通过调整提示的措辞和结构,优化LLM的输出结果,使其更符合食品安全领域的专业需求。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择合适的大型语言模型;2) 设计不同的提示策略,引导LLM完成信息提取任务;3) 使用验证食品(绿叶蔬菜和贝类)优化提示;4) 使用测试食品(乳制品、玉米和鲑鱼)评估最佳提示的性能。整个过程无需对LLM进行额外的训练,直接利用其预训练的知识。

关键创新:该论文的关键创新在于探索了不同提示策略对LLM信息提取性能的影响,并发现将任务分解为更小步骤的提示策略效果最佳。这种方法能够有效地引导LLM理解任务目标,并生成更准确、更全面的结果。此外,该研究还验证了LLM在食品安全领域的应用潜力,为相关领域的研究提供了新的思路。

关键设计:该研究的关键设计在于提示的构建。研究人员尝试了三种不同的提示风格,包括直接提示、逐步提示和基于示例的提示。其中,逐步提示将任务分解为多个子任务,例如首先识别食品类型,然后识别潜在的化学危害,最后将两者关联起来。这种方法能够有效地提高LLM的准确率和召回率。此外,研究人员还对提示的措辞进行了优化,例如使用更具体的术语和关键词,以提高LLM的理解能力。

📊 实验亮点

实验结果表明,采用分步提示策略的大型语言模型在提取食品安全化学危害方面表现出色,平均准确率达到93%。该模型能够识别出食品监测计划中已包含的多种化学污染物,验证了其在食品安全领域的应用潜力。此外,该研究还发现提示的具体措辞对结果有显著影响,为后续研究提供了重要的参考。

🎯 应用场景

该研究成果可应用于食品安全监管、风险评估和科学研究等领域。通过自动提取食品安全文献中的化学危害信息,可以帮助监管部门及时发现潜在的食品安全问题,为风险评估提供数据支持,并促进食品安全领域的科学研究。此外,该方法还可以扩展到其他领域,例如环境监测、药物研发等,具有广泛的应用前景。

📄 摘要(原文)

The number of scientific articles published in the domain of food safety has consistently been increasing over the last few decades. It has therefore become unfeasible for food safety experts to read all relevant literature related to food safety and the occurrence of hazards in the food chain. However, it is important that food safety experts are aware of the newest findings and can access this information in an easy and concise way. In this study, an approach is presented to automate the extraction of chemical hazards from the scientific literature through large language models. The large language model was used out-of-the-box and applied on scientific abstracts; no extra training of the models or a large computing cluster was required. Three different styles of prompting the model were tested to assess which was the most optimal for the task at hand. The prompts were optimized with two validation foods (leafy greens and shellfish) and the final performance of the best prompt was evaluated using three test foods (dairy, maize and salmon). The specific wording of the prompt was found to have a considerable effect on the results. A prompt breaking the task down into smaller steps performed best overall. This prompt reached an average accuracy of 93% and contained many chemical contaminants already included in food monitoring programs, validating the successful retrieval of relevant hazards for the food safety domain. The results showcase how valuable large language models can be for the task of automatic information extraction from the scientific literature.