NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

作者: Andong Hua, Mehak Preet Dhaliwal, Ryan Burke, Laya Pullela, Yao Qin

分类: cs.CL, cs.AI

发布日期: 2024-07-04 (更新: 2025-04-08)

备注: ICLR 2025

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

NutriBench：一个用于评估大型语言模型从膳食描述中估计营养成分的数据集

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 营养估计 大型语言模型 自然语言处理 膳食描述 基准数据集

📋 核心要点

现有营养估计方法依赖人工记录或结构化数据，缺乏对自然语言膳食描述的直接处理能力。
NutriBench数据集通过提供大量人工验证的膳食描述及其营养成分标注，为LLM在该领域的应用提供了基础。
实验结果表明，LLM在营养估计方面具有潜力，但仍存在挑战，需要进一步优化模型和策略。

📝 摘要（中文）

本文提出了NutriBench，这是首个公开可用的自然语言膳食描述营养基准数据集。NutriBench包含11,857个从真实世界全球膳食摄入数据生成的膳食描述。这些数据经过人工验证，并标注了宏量营养素标签，包括碳水化合物、蛋白质、脂肪和卡路里。作者对NutriBench进行了广泛的碳水化合物估计评估，测试了包括GPT-4o、Llama3.1、Qwen2、Gemma2和OpenBioLLM模型在内的12个领先的大型语言模型（LLM），使用了标准、思维链和检索增强生成策略。此外，作者进行了一项涉及专业营养师的研究，发现LLM可以提供相当但明显更快的估计。最后，作者通过模拟碳水化合物预测对糖尿病患者血糖水平的影响，进行了真实世界的风险评估。该工作突出了使用LLM进行营养估计的机会和挑战，展示了它们在帮助专业人士和普通人以及改善健康结果方面的潜力。该基准数据集已公开。

🔬 方法详解

问题定义：论文旨在解决从自然语言膳食描述中准确估计营养成分的问题。现有方法的痛点在于缺乏高质量的、大规模的、人工验证的数据集，难以训练和评估LLM在这一任务上的表现。此外，现有方法在处理复杂、非结构化的膳食描述时表现不佳。

核心思路：论文的核心思路是构建一个包含大量真实世界膳食描述及其对应营养成分标注的数据集，并利用该数据集评估现有LLM在营养估计任务上的性能。通过对不同LLM和策略的比较，揭示LLM在该领域的优势和局限性，并为未来的研究提供方向。

技术框架：整体框架包括数据收集与标注、LLM评估和风险评估三个主要阶段。数据收集阶段从真实世界的膳食摄入数据中提取膳食描述，并由人工进行验证和标注。LLM评估阶段使用NutriBench数据集，采用标准、思维链和检索增强生成策略，对12个领先的LLM进行碳水化合物估计任务的评估。风险评估阶段模拟碳水化合物预测对糖尿病患者血糖水平的影响，评估LLM预测的潜在风险。

关键创新：论文最重要的技术创新点在于构建了NutriBench数据集，这是首个公开可用的自然语言膳食描述营养基准数据集。该数据集的规模和质量为LLM在营养估计领域的应用提供了有力支持。此外，论文还对LLM在营养估计任务上的性能进行了全面评估，并提出了真实世界的风险评估方法。

关键设计：在LLM评估中，论文采用了标准、思维链和检索增强生成三种策略。标准策略直接使用LLM进行预测，思维链策略引导LLM逐步推理，检索增强生成策略利用外部知识库辅助LLM进行预测。在风险评估中，论文使用糖尿病患者的血糖模型，模拟不同碳水化合物预测对血糖水平的影响，评估LLM预测的潜在风险。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在碳水化合物估计任务上表现出一定的潜力，但与专业营养师相比仍存在差距。GPT-4o在某些指标上表现最佳，但所有LLM都存在高估或低估的情况。风险评估表明，不准确的碳水化合物预测可能对糖尿病患者的血糖水平产生显著影响，强调了提高LLM预测准确性的重要性。

🎯 应用场景

该研究成果可应用于开发智能膳食助手、个性化营养推荐系统和健康管理应用。通过利用LLM从膳食描述中自动估计营养成分，可以帮助用户更好地了解自己的饮食习惯，做出更健康的饮食选择，并预防慢性疾病。此外，该技术还可以为营养师和医生提供辅助工具，提高工作效率和准确性。

📄 摘要（原文）

Accurate nutrition estimation helps people make informed dietary choices and is essential in the prevention of serious health complications. We present NutriBench, the first publicly available natural language meal description nutrition benchmark. NutriBench consists of 11,857 meal descriptions generated from real-world global dietary intake data. The data is human-verified and annotated with macro-nutrient labels, including carbohydrates, proteins, fats, and calories. We conduct an extensive evaluation of NutriBench on the task of carbohydrate estimation, testing twelve leading Large Language Models (LLMs), including GPT-4o, Llama3.1, Qwen2, Gemma2, and OpenBioLLM models, using standard, Chain-of-Thought and Retrieval-Augmented Generation strategies. Additionally, we present a study involving professional nutritionists, finding that LLMs can provide comparable but significantly faster estimates. Finally, we perform a real-world risk assessment by simulating the effect of carbohydrate predictions on the blood glucose levels of individuals with diabetes. Our work highlights the opportunities and challenges of using LLMs for nutrition estimation, demonstrating their potential to aid professionals and laypersons and improve health outcomes. Our benchmark is publicly available at: https://mehak126.github.io/nutribench.html

NutriBench: A Dataset for Evaluating Large Language Models on Nutrition Estimation from Meal Descriptions

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理