Evaluation of LLMs in retrieving food and nutritional context for RAG systems

📄 arXiv: 2603.09704v1 📥 PDF

作者: Maks Požarnik Vavken, Matevž Ogrinc, Tome Eftimov, Barbara Koroušić Seljak

分类: cs.CL

发布日期: 2026-03-10

备注: This is the preprint for our conference paper for IEEE International Conference on Big Data

DOI: 10.1109/BigData66926.2025.11401545


💡 一句话要点

利用LLM驱动的RAG系统,高效检索食品营养数据,降低领域专家使用门槛。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 检索增强生成 食品成分数据库 元数据过滤 向量数据库

📋 核心要点

  1. 领域专家利用复杂食品营养数据面临手动工作量大和技术门槛高的挑战。
  2. 利用LLM将自然语言查询转化为结构化元数据过滤器,实现高效数据检索。
  3. 实验表明,LLM在可表达约束的查询中表现出色,但在复杂约束下仍面临挑战。

📝 摘要(中文)

本文评估了四个大型语言模型(LLM)在专用检索增强生成(RAG)系统中检索数据的有效性,该系统使用全面的食品成分数据库。我们的方法侧重于LLM将自然语言查询转换为结构化元数据过滤器的能力,从而通过Chroma向量数据库实现高效检索。通过在此关键检索步骤中实现高精度,我们证明了LLM可以作为一种易于访问、高性能的工具,大大减少了食品编辑和营养学家等领域专家利用复杂食品和营养数据所需的手动工作和技术专业知识。然而,尽管在简单和中等复杂程度的查询中表现出色,但我们对难题的分析表明,当查询涉及不可表达的约束时,可靠的检索仍然具有挑战性。这些发现表明,LLM驱动的元数据过滤在约束可以明确表达时表现出色,但在查询超出元数据格式的表示范围时会遇到困难。

🔬 方法详解

问题定义:论文旨在解决食品成分数据库检索中,领域专家(如食品编辑和营养学家)需要大量手动工作和专业技术才能有效利用数据的问题。现有方法通常需要手动编写复杂的查询语句,或者依赖于需要大量人工干预的传统数据库检索技术,效率低下且难以推广。

核心思路:论文的核心思路是利用大型语言模型(LLM)的自然语言理解能力,将用户以自然语言提出的查询自动转换为结构化的元数据过滤器。这些过滤器随后被用于在向量数据库中进行高效检索,从而降低了用户的使用门槛,并提高了检索效率。

技术框架:整体框架包含以下几个主要模块:1) 用户输入自然语言查询;2) LLM将查询解析并转换为结构化的元数据过滤器;3) 使用生成的过滤器在Chroma向量数据库中进行检索;4) 返回检索到的相关食品和营养信息。该框架的核心在于LLM扮演了自然语言到结构化查询的转换桥梁的角色。

关键创新:最重要的技术创新点在于利用LLM进行元数据过滤,将自然语言查询转化为机器可理解的结构化查询。与传统方法相比,这种方法无需用户具备专业的数据库查询知识,降低了使用门槛,并提高了检索的灵活性和效率。

关键设计:论文的关键设计在于如何有效地利用LLM生成准确的元数据过滤器。具体的技术细节包括:选择合适的LLM模型,设计有效的提示工程(prompt engineering)策略,以及定义清晰的元数据结构。此外,Chroma向量数据库的选择也至关重要,它需要能够高效地存储和检索食品成分数据,并支持基于元数据的过滤操作。论文中可能还涉及了对LLM输出结果的后处理和验证机制,以确保检索结果的准确性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM驱动的RAG系统在简单和中等复杂程度的查询中表现出很高的准确性,能够有效地检索到相关的食品和营养信息。然而,在处理涉及不可表达约束的复杂查询时,检索性能有所下降,表明该方法在处理复杂逻辑推理方面仍有提升空间。具体的性能数据(如准确率、召回率等)以及与传统方法的对比结果(如有)未在摘要中明确给出。

🎯 应用场景

该研究成果可广泛应用于食品营养领域,例如辅助营养师进行膳食分析和推荐,帮助食品企业进行产品研发和配方优化,以及为消费者提供个性化的营养建议。通过降低数据检索的技术门槛,该方法有望促进食品营养知识的普及和应用,提升公众健康水平。

📄 摘要(原文)

In this article, we evaluate four Large Language Models (LLMs) and their effectiveness at retrieving data within a specialized Retrieval-Augmented Generation (RAG) system, using a comprehensive food composition database. Our method is focused on the LLMs ability to translate natural language queries into structured metadata filters, enabling efficient retrieval via a Chroma vector database. By achieving high accuracy in this critical retrieval step, we demonstrate that LLMs can serve as an accessible, high-performance tool, drastically reducing the manual effort and technical expertise previously required for domain experts, such as food compilers and nutritionists, to leverage complex food and nutrition data. However, despite the high performance on easy and moderately complex queries, our analysis of difficult questions reveals that reliable retrieval remains challenging when queries involve non-expressible constraints. These findings demonstrate that LLM-driven metadata filtering excels when constraints can be explicitly expressed, but struggles when queries exceed the representational scope of the metadata format.