FoodSEM: Large Language Model Specialized in Food Named-Entity Linking

作者: Ana Gjorgjevikj, Matej Martinc, Gjorgjina Cenikj, Sašo Džeroski, Barbara Koroušić Seljak, Tome Eftimov

分类: cs.CL, cs.IR

发布日期: 2025-09-26

备注: To appear in the Proceedings of the 28th International Conference on Discovery Science (DS 2025)

💡 一句话要点

FoodSEM：针对食品命名实体链接的专用大型语言模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 食品命名实体链接 大型语言模型 微调 食品本体 指令-响应学习

📋 核心要点

现有通用LLM和领域特定模型在食品命名实体链接任务上表现不足，无法准确链接食品实体到相关本体。
FoodSEM通过指令-响应方式，将文本中的食品实体链接到FoodOn、SNOMED-CT等多个食品本体。
FoodSEM在食品NEL任务上取得了显著的性能提升，F1得分最高达到98%，优于零样本、单样本和少样本LLM。

📝 摘要（中文）

本文介绍了一种先进的、经过微调的开源大型语言模型（LLM）FoodSEM，用于将命名实体链接（NEL）到食品相关本体。据我们所知，食品NEL是一项无法通过最先进的通用（大型）语言模型或定制的领域特定模型/系统准确解决的任务。通过指令-响应（IR）场景，FoodSEM将文本中提到的食品相关实体链接到多个本体，包括FoodOn、SNOMED-CT和Hansard分类法。与相关模型/系统相比，FoodSEM模型实现了最先进的性能，在某些本体和数据集上的F1得分甚至达到98%。与零样本、单样本和少样本LLM提示基线的比较分析进一步突出了FoodSEM优于其非微调版本的性能。通过公开发布FoodSEM及其相关资源，本文的主要贡献包括：（1）发布食品注释语料库，采用适合LLM微调/评估的IR格式，（2）发布一个强大的模型，以促进对食品领域文本的语义理解，以及（3）为未来的食品NEL基准测试提供一个强大的基线。

🔬 方法详解

问题定义：论文旨在解决食品领域命名实体链接（NEL）问题。现有通用大型语言模型（LLM）和领域定制模型在处理该任务时，无法准确地将文本中提及的食品实体链接到相应的食品本体（如FoodOn、SNOMED-CT等）。这限制了对食品相关文本的语义理解和知识挖掘。

核心思路：论文的核心思路是微调一个大型语言模型，使其专门针对食品领域的命名实体链接任务进行优化。通过构建一个指令-响应（IR）格式的食品注释语料库，并使用该语料库对LLM进行微调，从而提高模型在食品NEL任务上的准确性和效率。这种方法利用了LLM的强大语言理解能力，并结合领域知识进行针对性训练。

技术框架：FoodSEM的技术框架主要包括以下几个步骤：1）构建食品注释语料库，将文本中的食品实体与相应的本体概念进行链接，并转换为指令-响应格式。2）选择一个预训练的大型语言模型作为基础模型。3）使用构建的食品注释语料库对基础模型进行微调，得到FoodSEM模型。4）评估FoodSEM模型在食品NEL任务上的性能，并与其他模型进行比较。

关键创新：论文的关键创新在于：1）构建了一个高质量的食品注释语料库，并将其转换为适合LLM微调的指令-响应格式。2）提出了FoodSEM模型，这是一个专门针对食品NEL任务进行微调的LLM，显著提高了食品NEL的准确性。3）通过实验证明，FoodSEM模型在食品NEL任务上优于现有的通用LLM和领域定制模型。

关键设计：论文的关键设计包括：1）指令-响应格式的设计，使得LLM能够更好地理解任务目标，并生成相应的链接结果。2）微调策略的选择，包括学习率、batch size、训练轮数等参数的设置，以获得最佳的性能。3）损失函数的选择，用于衡量模型预测结果与真实标签之间的差异，并指导模型的训练。

🖼️ 关键图片

📊 实验亮点

FoodSEM模型在食品命名实体链接任务上取得了显著的性能提升，在某些本体和数据集上的F1得分甚至达到了98%。与零样本、单样本和少样本LLM提示基线相比，FoodSEM表现出更优越的性能，证明了微调策略的有效性。该模型为食品领域的语义理解和知识挖掘提供了一个强大的工具。

🎯 应用场景

FoodSEM在食品营养分析、膳食推荐、食品安全监管、食品知识图谱构建等领域具有广泛的应用前景。它可以帮助人们更好地理解食品相关文本，提取关键信息，并为个性化营养建议和食品安全风险评估提供支持。未来，FoodSEM可以与其他技术相结合，构建更智能化的食品信息服务。

📄 摘要（原文）

This paper introduces FoodSEM, a state-of-the-art fine-tuned open-source large language model (LLM) for named-entity linking (NEL) to food-related ontologies. To the best of our knowledge, food NEL is a task that cannot be accurately solved by state-of-the-art general-purpose (large) language models or custom domain-specific models/systems. Through an instruction-response (IR) scenario, FoodSEM links food-related entities mentioned in a text to several ontologies, including FoodOn, SNOMED-CT, and the Hansard taxonomy. The FoodSEM model achieves state-of-the-art performance compared to related models/systems, with F1 scores even reaching 98% on some ontologies and datasets. The presented comparative analyses against zero-shot, one-shot, and few-shot LLM prompting baselines further highlight FoodSEM's superior performance over its non-fine-tuned version. By making FoodSEM and its related resources publicly available, the main contributions of this article include (1) publishing a food-annotated corpora into an IR format suitable for LLM fine-tuning/evaluation, (2) publishing a robust model to advance the semantic understanding of text in the food domain, and (3) providing a strong baseline on food NEL for future benchmarking.

FoodSEM: Large Language Model Specialized in Food Named-Entity Linking

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理