SemEval-2025 Task 9: The Food Hazard Detection Challenge

📄 arXiv: 2503.19800v1 📥 PDF

作者: Korbinian Randl, John Pavlopoulos, Aron Henriksson, Tony Lindgren, Juli Bakagianni

分类: cs.CL

发布日期: 2025-03-25

备注: Under review for SemEval 2025


💡 一句话要点

SemEval-2025 Task 9提出基于长尾分布的食品危害检测挑战,并验证了合成数据和多种模型架构的有效性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 食品危害检测 长尾分布 合成数据 大型语言模型 数据增强 文本分类 食品安全

📋 核心要点

  1. 食品安全事件检测面临长尾分布挑战,少数类别数据量大,多数类别数据稀缺,影响模型性能。
  2. 利用大型语言模型生成合成数据,对长尾分布进行过采样,平衡各类数据量,提升模型泛化能力。
  3. 实验对比了仅编码器、编码器-解码器和仅解码器三种架构,发现它们在食品危害检测任务中性能相当。

📝 摘要(中文)

本次挑战探索了基于文本的食品危害预测,重点关注长尾分布的类别。任务分为两个子任务:(1)预测网页文本是否暗示了十种食品危害类别之一,并识别相关的食品类别;(2)通过为危害和产品分配特定标签,提供更细粒度的分类。研究结果表明,大型语言模型生成的合成数据对于长尾分布的过采样非常有效。此外,我们发现微调后的仅编码器、编码器-解码器和仅解码器系统在两个子任务中都实现了相当的最大性能。在本次挑战中,我们逐步发布了一个新的包含6,644个手动标注的食品事件报告数据集(CC BY-NC-SA 4.0许可)。

🔬 方法详解

问题定义:该论文旨在解决食品危害检测中存在的长尾分布问题。现有方法在处理类别不平衡的数据时,往往会导致模型在少数类别上表现良好,而在多数类别上表现较差,泛化能力不足。因此,需要一种能够有效处理长尾分布,提高模型在所有类别上的预测准确率的方法。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成合成数据,对长尾分布中的稀缺类别进行过采样。通过增加这些类别的数据量,平衡数据集的分布,从而提高模型在这些类别上的预测性能。同时,论文还比较了不同模型架构(仅编码器、编码器-解码器和仅解码器)在食品危害检测任务中的表现。

技术框架:整体框架包括数据预处理、合成数据生成、模型训练和评估四个主要阶段。首先,对原始数据进行清洗和标注。然后,利用LLM生成合成数据,并将其与原始数据合并。接着,使用合并后的数据训练不同的模型架构。最后,使用测试集评估模型的性能。

关键创新:该论文的关键创新在于利用LLM生成合成数据来解决长尾分布问题。与传统的数据增强方法相比,LLM生成的合成数据更具有多样性和真实性,能够更好地提高模型的泛化能力。此外,论文还比较了不同模型架构在食品危害检测任务中的表现,为后续研究提供了参考。

关键设计:论文的关键设计包括LLM的选择、合成数据的生成策略、模型架构的选择和超参数的调整。具体来说,论文选择了合适的LLM,并设计了有效的提示语,以生成高质量的合成数据。同时,论文还比较了不同模型架构(如BERT、T5、GPT)在食品危害检测任务中的表现,并选择了最优的模型架构。此外,论文还对模型的超参数进行了精细的调整,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,利用大型语言模型生成的合成数据可以显著提高模型在长尾分布上的性能。不同模型架构(仅编码器、编码器-解码器和仅解码器)在两个子任务中都实现了相当的最大性能,表明模型架构的选择对最终性能的影响较小,数据质量和训练策略更为关键。该研究还发布了一个包含6,644个手动标注的食品事件报告数据集。

🎯 应用场景

该研究成果可应用于食品安全监管、舆情监控和消费者保护等领域。通过自动检测网络文本中的食品危害信息,可以帮助监管部门及时发现和处理食品安全事件,保障公众健康。同时,该技术也可以用于分析消费者对食品安全的关注点,为企业提供产品改进和营销策略的参考。

📄 摘要(原文)

In this challenge, we explored text-based food hazard prediction with long tail distributed classes. The task was divided into two subtasks: (1) predicting whether a web text implies one of ten food-hazard categories and identifying the associated food category, and (2) providing a more fine-grained classification by assigning a specific label to both the hazard and the product. Our findings highlight that large language model-generated synthetic data can be highly effective for oversampling long-tail distributions. Furthermore, we find that fine-tuned encoder-only, encoder-decoder, and decoder-only systems achieve comparable maximum performance across both subtasks. During this challenge, we gradually released (under CC BY-NC-SA 4.0) a novel set of 6,644 manually labeled food-incident reports.