CGU-ILALab at FoodBench-QA 2026: Comparing Traditional and LLM-based Approaches for Recipe Nutrient Estimation
作者: Wei-Chun Chen, Yu-Xuan Chen, I-Fang Chung, Ying-Jia Lin
分类: cs.CL, cs.AI
发布日期: 2026-04-28
备注: Accepted by the Third Workshop on Patient-oriented Language Processing (CL4Health) at LREC 2026
💡 一句话要点
比较传统方法与LLM,用于食谱营养成分估计,权衡精度与效率
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 食谱分析 营养成分估计 大型语言模型 自然语言处理 膳食监测
📋 核心要点
- 现有食谱营养估计方法难以处理配料术语模糊和数量表达多样性问题。
- 论文探索了从传统方法到大型语言模型(LLM)的不同模型,以提高营养估计的准确性。
- 实验表明,LLM方法在精度上优于传统方法,但计算成本也更高,需要在实际应用中权衡。
📝 摘要(中文)
从非结构化的食谱文本中准确估计营养成分是一项重要但具有挑战性的任务,因为配料术语模糊且数量表达方式变化很大。本文系统地评估了多种模型,涵盖了从词汇匹配方法(TF-IDF与岭回归)到深度语义编码器(DeBERTa-v3),再到大型语言模型(LLM)的生成推理。在欧盟法规1169/2011定义的严格容差标准下,实验结果揭示了预测准确性和计算效率之间的明显权衡。TF-IDF基线实现了中等的营养成分估计性能,且推理速度接近瞬时,而DeBERTa-v3编码器在特定任务的数据稀缺情况下表现不佳。相比之下,少量样本LLM推理(例如,Gemini 2.5 Flash)和混合LLM优化流程(TF-IDF结合Gemini 2.5 Flash)在所有营养类别中都提供了最高的验证准确率。这些改进可能源于LLM能够利用预训练的世界知识来解决模糊的术语并标准化非标准单位,这对于纯粹的词汇方法来说仍然很困难。然而,这些收益是以显着更高的推理延迟为代价的,突出了膳食监测系统中实时效率和营养精度之间的实际部署权衡。
🔬 方法详解
问题定义:论文旨在解决从非结构化食谱文本中准确估计营养成分的问题。现有方法,如词汇匹配和深度语义编码,难以处理配料术语的模糊性和数量表达的多样性,导致营养估计不准确。
核心思路:论文的核心思路是利用大型语言模型(LLM)的预训练知识来解决食谱文本中的歧义和不确定性。LLM能够理解上下文,并进行推理,从而更准确地估计营养成分。同时,论文也考虑了计算效率,探索了传统方法与LLM结合的混合方案。
技术框架:论文评估了三种主要方法:1) 基于TF-IDF的词汇匹配方法;2) 基于DeBERTa-v3的深度语义编码器;3) 基于LLM(Gemini 2.5 Flash)的生成推理。此外,还探索了一种混合方法,即TF-IDF与Gemini 2.5 Flash结合,利用TF-IDF进行初步估计,然后使用LLM进行优化。
关键创新:论文的关键创新在于将大型语言模型应用于食谱营养成分估计任务,并验证了其在处理模糊术语和非标准单位方面的优势。此外,论文还提出了混合方法,旨在平衡精度和计算效率。
关键设计:论文使用了Gemini 2.5 Flash作为LLM,并采用了少量样本学习(few-shot learning)的方式进行推理。对于混合方法,TF-IDF的输出作为LLM的输入,用于指导LLM的生成过程。论文使用了欧盟法规1169/2011定义的严格容差标准来评估模型的性能。
📊 实验亮点
实验结果表明,基于LLM的方法(Gemini 2.5 Flash)在营养成分估计方面优于传统的TF-IDF和DeBERTa-v3方法。混合方法(TF-IDF结合Gemini 2.5 Flash)在所有营养类别中都实现了最高的验证准确率。然而,LLM方法的推理延迟明显高于传统方法,需要在精度和效率之间进行权衡。
🎯 应用场景
该研究成果可应用于膳食监测系统、营养咨询服务、健康饮食推荐等领域。通过准确估计食谱的营养成分,可以帮助用户更好地了解食物的营养价值,从而制定更健康的饮食计划。未来的研究可以进一步优化LLM的推理效率,使其更适用于实时应用。
📄 摘要(原文)
Accurate nutrient estimation from unstructured recipe text is an important yet challenging problem in dietary monitoring, due to ambiguous ingredient terminology and highly variable quantity expressions. We systematically evaluate models spanning a wide range of representational capacity, from lexical matching methods (TF-IDF with Ridge Regression), to deep semantic encoders (DeBERTa-v3), to generative reasoning with large language models (LLMs). Under the strict tolerance criteria defined by EU Regulation 1169/2011, our empirical results reveal a clear trade-off between predictive accuracy and computational efficiency. The TF-IDF baseline achieves moderate nutrient estimation performance with near-instantaneous inference, whereas the DeBERTa-v3 encoder performs poorly under task-specific data scarcity. In contrast, few-shot LLM inference (e.g., Gemini 2.5 Flash) and a hybrid LLM refinement pipeline (TF-IDF combined with Gemini 2.5 Flash) deliver the highest validation accuracy across all nutrient categories. These improvements likely arise from the ability of LLMs to leverage pre-trained world knowledge to resolve ambiguous terminology and normalize non-standard units, which remain difficult for purely lexical approaches. However, these gains come at the cost of substantially higher inference latency, highlighting a practical deployment trade-off between real-time efficiency and nutritional precision in dietary monitoring systems.