Review GIDE -- Restaurant Review Gastrointestinal Illness Detection and Extraction with Large Language Models

📄 arXiv: 2503.09743v1 📥 PDF

作者: Timothy Laurence, Joshua Harris, Leo Loman, Amy Douglas, Yung-Wai Chan, Luke Hounsome, Lesley Larkin, Michael Borowitz

分类: cs.CL, cs.LG

发布日期: 2025-03-12

备注: 20 pages


💡 一句话要点

利用大型语言模型进行餐厅评论中胃肠道疾病的检测与信息抽取

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 食源性疾病监测 餐厅评论分析 自然语言处理 提示工程

📋 核心要点

  1. 传统食源性胃肠道疾病监测依赖医疗系统数据,但大量病例未纳入,导致监测不完整。
  2. 利用大型语言模型分析在线餐厅评论,通过提示工程实现疾病检测、症状和食物信息提取。
  3. 实验表明,LLM在信息抽取任务中表现出色,微F1值超过90%,且在偏差测试中表现出较强的鲁棒性。

📝 摘要(中文)

食源性胃肠道疾病(GI)是英国常见的健康问题。由于许多病例未与医疗系统交互,传统监测方法面临挑战。公开的在线餐厅评论和大型语言模型(LLM)的进步为扩展疾病监测提供了机会,可以通过识别公众报告的GI疾病来实现。本研究引入了一种新颖的标注模式,由GI疾病专家开发,并应用于Yelp开放数据集的评论。我们的标注超越了二元疾病检测,包括症状和食物信息的详细提取。我们评估了开放权重LLM在GI疾病检测、症状提取和食物提取这三个任务中的性能,并将其与专门为这些任务微调的基于RoBERTa的分类模型进行比较。结果表明,使用基于提示的方法,LLM在所有三个任务中均实现了超过90%的微F1分数。仅使用提示,我们获得的微F1分数就超过了较小的微调模型。我们进一步证明了LLM在三个以偏差为中心的实验中GI疾病检测的鲁棒性。我们的结果表明,公开的评论文本和LLM为GI疾病的公共卫生监测提供了巨大的潜力,能够高效地提取关键信息。虽然LLM在处理过程中表现出最小的偏差,但餐厅评论数据固有的局限性凸显了谨慎解释结果的必要性。

🔬 方法详解

问题定义:论文旨在解决食源性胃肠道疾病(GI)监测中,由于大量病例未与医疗系统交互而导致的数据缺失问题。现有方法依赖医疗数据,无法覆盖全部病例,导致监测不完整。在线餐厅评论包含大量用户报告的疾病信息,但缺乏有效的信息提取方法。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大自然语言处理能力,从公开的在线餐厅评论中自动提取GI疾病相关信息。通过设计合适的提示(Prompt),引导LLM识别和提取症状、食物等关键信息,从而扩展疾病监测范围。

技术框架:整体框架包括数据收集(Yelp餐厅评论数据集)、标注模式设计(由GI疾病专家参与)、模型选择(开放权重LLM和RoBERTa)、提示工程(Prompt Engineering)、模型评估和偏差分析。主要模块包括:GI疾病检测模块、症状提取模块和食物提取模块。每个模块都基于LLM,通过不同的提示进行引导。

关键创新:论文的关键创新在于将大型语言模型应用于食源性疾病监测,并设计了一种新颖的标注模式,能够提取症状和食物等详细信息,而不仅仅是二元疾病检测。此外,论文还通过偏差分析验证了LLM的鲁棒性。

关键设计:论文使用了基于提示(Prompt)的方法,针对不同的任务(疾病检测、症状提取、食物提取)设计了不同的提示。具体提示内容未知,但强调了提示工程的重要性。论文对比了LLM和微调的RoBERTa模型,发现LLM在无需微调的情况下也能取得优异的性能。偏差分析实验的设计细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用基于提示的方法,LLM在GI疾病检测、症状提取和食物提取这三个任务中均实现了超过90%的微F1分数。仅使用提示,LLM获得的微F1分数就超过了较小的微调RoBERTa模型。此外,LLM在三个以偏差为中心的实验中表现出较强的鲁棒性。

🎯 应用场景

该研究成果可应用于公共卫生领域,扩展食源性疾病的监测范围,提高监测效率。通过分析在线评论,可以更早地发现疾病爆发的苗头,及时采取干预措施,降低疾病传播风险。此外,该方法还可以应用于其他类型的疾病监测,例如药物不良反应监测等。

📄 摘要(原文)

Foodborne gastrointestinal (GI) illness is a common cause of ill health in the UK. However, many cases do not interact with the healthcare system, posing significant challenges for traditional surveillance methods. The growth of publicly available online restaurant reviews and advancements in large language models (LLMs) present potential opportunities to extend disease surveillance by identifying public reports of GI illness. In this study, we introduce a novel annotation schema, developed with experts in GI illness, applied to the Yelp Open Dataset of reviews. Our annotations extend beyond binary disease detection, to include detailed extraction of information on symptoms and foods. We evaluate the performance of open-weight LLMs across these three tasks: GI illness detection, symptom extraction, and food extraction. We compare this performance to RoBERTa-based classification models fine-tuned specifically for these tasks. Our results show that using prompt-based approaches, LLMs achieve micro-F1 scores of over 90% for all three of our tasks. Using prompting alone, we achieve micro-F1 scores that exceed those of smaller fine-tuned models. We further demonstrate the robustness of LLMs in GI illness detection across three bias-focused experiments. Our results suggest that publicly available review text and LLMs offer substantial potential for public health surveillance of GI illness by enabling highly effective extraction of key information. While LLMs appear to exhibit minimal bias in processing, the inherent limitations of restaurant review data highlight the need for cautious interpretation of results.