Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

作者: Jan Drole, Ana Gjorgjevikj, Barbara Korouši'c Seljak, Tome Eftimov

分类: cs.CL

发布日期: 2026-03-10

备注: Preprint

DOI: 10.1109/BigData66926.2025.11400993

💡 一句话要点

FoodOntoRAG：一种无需微调的、鲁棒的食品实体链接方法，可应对本体漂移。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 食品实体链接 命名实体识别 知识图谱 大型语言模型 检索增强生成

📋 核心要点

现有食品领域实体链接方法依赖于微调大型语言模型，计算成本高昂，且模型与特定本体版本绑定，难以应对本体漂移。
FoodOntoRAG通过检索领域本体中的候选实体，并利用食品标签等结构化证据调节LLM，实现无需微调的少样本实体链接。
实验表明，FoodOntoRAG在接近最先进准确率的同时，能发现现有标注的不足，并提供可解释的决策依据。

📝 摘要（中文）

本文提出FoodOntoRAG，一种模型和本体无关的流水线方法，用于执行少样本食品实体链接（NEL）。该方法通过从领域本体中检索候选实体，并利用结构化证据（食品标签、同义词、定义和关系）来调节大型语言模型（LLM）。FoodOntoRAG使用混合词汇-语义检索器枚举候选实体；选择器代理选择最佳匹配并给出理由；独立的评分器代理校准置信度；当置信度低于阈值时，同义词生成器代理提出重新表述以重新进入循环。该流水线在接近最先进准确率的同时，揭示了现有注释中的差距和不一致。该设计避免了微调，提高了对本体演化的鲁棒性，并通过有根据的理由产生可解释的决策。

🔬 方法详解

问题定义：论文旨在解决食品领域命名实体链接（NEL）问题，即如何将产品标签和菜单中的食品术语标准化为本体概念。现有方法主要依赖于在特定任务语料库上微调大型语言模型（LLM），但这种方法存在三个主要痛点：一是计算成本高昂；二是模型与特定本体快照绑定，难以适应本体演化（ontology drift）；三是缺乏可解释性。

核心思路：FoodOntoRAG的核心思路是利用检索增强生成（RAG）范式，避免对LLM进行微调，从而提高模型的泛化能力和对本体演化的鲁棒性。通过从领域本体中检索相关实体，并利用结构化证据（如食品标签、同义词、定义和关系）来调节LLM，使模型能够做出更准确、可解释的链接决策。

技术框架：FoodOntoRAG的整体架构是一个多智能体流水线，包含以下四个主要模块： 1. 混合词汇-语义检索器：用于从领域本体中检索候选实体。 2. 选择器代理：负责从候选实体中选择最佳匹配，并给出选择理由。 3. 评分器代理：用于校准选择器代理的置信度。 4. 同义词生成器代理：当置信度低于阈值时，生成新的同义词，重新进入检索循环。

关键创新：FoodOntoRAG最重要的创新点在于其模型和本体无关的设计，以及对RAG范式的巧妙应用。与传统的微调方法相比，FoodOntoRAG无需针对特定本体版本进行训练，因此能够更好地适应本体演化。此外，通过引入选择器代理和评分器代理，FoodOntoRAG能够提供可解释的链接决策，并揭示现有标注中的差距和不一致。

关键设计：FoodOntoRAG的关键设计包括： 1. 混合检索策略：结合词汇和语义信息，提高检索的准确率和召回率。 2. 多智能体协作：通过多个智能体的协同工作，实现更准确、可解释的实体链接。 3. 置信度校准机制：利用评分器代理校准选择器代理的置信度，提高链接的可靠性。 4. 同义词生成机制：当置信度较低时，生成新的同义词，提高链接的覆盖率。

🖼️ 关键图片

📊 实验亮点

FoodOntoRAG在实验中表现出接近最先进的准确率，同时避免了微调，降低了计算成本。更重要的是，该方法能够揭示现有标注中的差距和不一致，例如发现某些食品实体在本体中缺少定义或存在歧义。此外，FoodOntoRAG通过提供可解释的决策依据，增强了用户对链接结果的信任度。

🎯 应用场景

FoodOntoRAG在食品安全报告、膳食评估、营养健康管理等领域具有广泛的应用前景。通过将食品术语标准化为本体概念，可以提高数据的互操作性和一致性，为食品安全风险评估、个性化膳食推荐等应用提供更可靠的基础。此外，该方法还可以用于构建更完善的食品知识图谱，促进食品领域的知识发现和创新。

📄 摘要（原文）

Standardizing food terms from product labels and menus into ontology concepts is a prerequisite for trustworthy dietary assessment and safety reporting. The dominant approach to Named Entity Linking (NEL) in the food and nutrition domains fine-tunes Large Language Models (LLMs) on task-specific corpora. Although effective, fine-tuning incurs substantial computational cost, ties models to a particular ontology snapshot (i.e., version), and degrades under ontology drift. This paper presents FoodOntoRAG, a model- and ontology-agnostic pipeline that performs few-shot NEL by retrieving candidate entities from domain ontologies and conditioning an LLM on structured evidence (food labels, synonyms, definitions, and relations). A hybrid lexical--semantic retriever enumerates candidates; a selector agent chooses a best match with rationale; a separate scorer agent calibrates confidence; and, when confidence falls below a threshold, a synonym generator agent proposes reformulations to re-enter the loop. The pipeline approaches state-of-the-art accuracy while revealing gaps and inconsistencies in existing annotations. The design avoids fine-tuning, improves robustness to ontology evolution, and yields interpretable decisions through grounded justifications.

Beyond Fine-Tuning: Robust Food Entity Linking under Ontology Drift with FoodOntoRAG

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理