FoodSEM: Large Language Model Specialized in Food Named-Entity Linking
作者: Ana Gjorgjevikj, Matej Martinc, Gjorgjina Cenikj, Sašo Džeroski, Barbara Koroušić Seljak, Tome Eftimov
分类: cs.CL, cs.IR
发布日期: 2025-09-26
备注: To appear in the Proceedings of the 28th International Conference on Discovery Science (DS 2025)
💡 一句话要点
FoodSEM:针对食品命名实体链接的专用大型语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 食品命名实体链接 大型语言模型 微调 食品本体 指令-响应学习
📋 核心要点
- 现有通用LLM和领域特定模型在食品命名实体链接任务上表现不足,无法准确链接食品实体到相关本体。
- FoodSEM通过指令-响应方式,将文本中的食品实体链接到FoodOn、SNOMED-CT等多个食品本体。
- FoodSEM在食品NEL任务上取得了显著的性能提升,F1得分最高达到98%,优于零样本、单样本和少样本LLM。
📝 摘要(中文)
本文介绍了一种先进的、经过微调的开源大型语言模型(LLM)FoodSEM,用于将命名实体链接(NEL)到食品相关本体。据我们所知,食品NEL是一项无法通过最先进的通用(大型)语言模型或定制的领域特定模型/系统准确解决的任务。通过指令-响应(IR)场景,FoodSEM将文本中提到的食品相关实体链接到多个本体,包括FoodOn、SNOMED-CT和Hansard分类法。与相关模型/系统相比,FoodSEM模型实现了最先进的性能,在某些本体和数据集上的F1得分甚至达到98%。与零样本、单样本和少样本LLM提示基线的比较分析进一步突出了FoodSEM优于其非微调版本的性能。通过公开发布FoodSEM及其相关资源,本文的主要贡献包括:(1)发布食品注释语料库,采用适合LLM微调/评估的IR格式,(2)发布一个强大的模型,以促进对食品领域文本的语义理解,以及(3)为未来的食品NEL基准测试提供一个强大的基线。
🔬 方法详解
问题定义:论文旨在解决食品领域命名实体链接(NEL)问题。现有通用大型语言模型(LLM)和领域定制模型在处理该任务时,无法准确地将文本中提及的食品实体链接到相应的食品本体(如FoodOn、SNOMED-CT等)。这限制了对食品相关文本的语义理解和知识挖掘。
核心思路:论文的核心思路是微调一个大型语言模型,使其专门针对食品领域的命名实体链接任务进行优化。通过构建一个指令-响应(IR)格式的食品注释语料库,并使用该语料库对LLM进行微调,从而提高模型在食品NEL任务上的准确性和效率。这种方法利用了LLM的强大语言理解能力,并结合领域知识进行针对性训练。
技术框架:FoodSEM的技术框架主要包括以下几个步骤:1)构建食品注释语料库,将文本中的食品实体与相应的本体概念进行链接,并转换为指令-响应格式。2)选择一个预训练的大型语言模型作为基础模型。3)使用构建的食品注释语料库对基础模型进行微调,得到FoodSEM模型。4)评估FoodSEM模型在食品NEL任务上的性能,并与其他模型进行比较。
关键创新:论文的关键创新在于:1)构建了一个高质量的食品注释语料库,并将其转换为适合LLM微调的指令-响应格式。2)提出了FoodSEM模型,这是一个专门针对食品NEL任务进行微调的LLM,显著提高了食品NEL的准确性。3)通过实验证明,FoodSEM模型在食品NEL任务上优于现有的通用LLM和领域定制模型。
关键设计:论文的关键设计包括:1)指令-响应格式的设计,使得LLM能够更好地理解任务目标,并生成相应的链接结果。2)微调策略的选择,包括学习率、batch size、训练轮数等参数的设置,以获得最佳的性能。3)损失函数的选择,用于衡量模型预测结果与真实标签之间的差异,并指导模型的训练。
🖼️ 关键图片
📊 实验亮点
FoodSEM模型在食品命名实体链接任务上取得了显著的性能提升,在某些本体和数据集上的F1得分甚至达到了98%。与零样本、单样本和少样本LLM提示基线相比,FoodSEM表现出更优越的性能,证明了微调策略的有效性。该模型为食品领域的语义理解和知识挖掘提供了一个强大的工具。
🎯 应用场景
FoodSEM在食品营养分析、膳食推荐、食品安全监管、食品知识图谱构建等领域具有广泛的应用前景。它可以帮助人们更好地理解食品相关文本,提取关键信息,并为个性化营养建议和食品安全风险评估提供支持。未来,FoodSEM可以与其他技术相结合,构建更智能化的食品信息服务。
📄 摘要(原文)
This paper introduces FoodSEM, a state-of-the-art fine-tuned open-source large language model (LLM) for named-entity linking (NEL) to food-related ontologies. To the best of our knowledge, food NEL is a task that cannot be accurately solved by state-of-the-art general-purpose (large) language models or custom domain-specific models/systems. Through an instruction-response (IR) scenario, FoodSEM links food-related entities mentioned in a text to several ontologies, including FoodOn, SNOMED-CT, and the Hansard taxonomy. The FoodSEM model achieves state-of-the-art performance compared to related models/systems, with F1 scores even reaching 98% on some ontologies and datasets. The presented comparative analyses against zero-shot, one-shot, and few-shot LLM prompting baselines further highlight FoodSEM's superior performance over its non-fine-tuned version. By making FoodSEM and its related resources publicly available, the main contributions of this article include (1) publishing a food-annotated corpora into an IR format suitable for LLM fine-tuning/evaluation, (2) publishing a robust model to advance the semantic understanding of text in the food domain, and (3) providing a strong baseline on food NEL for future benchmarking.