FAM-Bench: A Multimodal Benchmark for Condition-Aware Food-as-Medicine Reasoning

📄 arXiv: 2605.31410v1 📥 PDF

作者: Mingyang Mao, Bhargav Rishi Medisetti, Utkarsh Grover, Tanvir Ibrahim, Wenyan Li, Tingting Zhang, Xiaomin Lin

分类: cs.AI

发布日期: 2026-05-29


💡 一句话要点

提出FAM-Bench多模态基准,用于评估模型在特定健康状况下的膳食推荐能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 膳食即药物 多模态学习 健康感知 膳食推荐 基准数据集

📋 核心要点

  1. 现有膳食AI基准缺乏对健康状况感知的膳食推荐能力评估,无法满足膳食即药物的应用需求。
  2. FAM-Bench通过菜肴适用性评估和菜肴比较分析两项任务,考察模型在特定健康状况下的推理能力。
  3. 该基准包含大量营养专家验证的实例,涵盖多种健康状况,为健康感知推理提供标准测试平台。

📝 摘要(中文)

本文提出了FAM-Bench,一个多模态的膳食即药物(Food-as-Medicine)基准,用于评估模型在特定健康状况下进行推理的能力。现有膳食AI基准主要集中于菜肴识别、食谱理解、营养成分估计或一般营养问答,缺乏对健康感知决策层的测试。FAM-Bench包含2500个由营养专家验证的实例,涵盖13种与饮食相关的健康状况。该基准包含两项互补任务:菜肴级别适用性评估(模型根据图像和配料表判断菜肴是否适合特定健康状况)和比较菜肴分析(模型根据特定健康状况对四个候选菜肴的适用性进行排序)。这两项任务都需要整合配料证据、视觉准备线索和临床营养约束,为语言和视觉-语言模型中基于常识的健康感知推理提供了一个标准化的测试平台。

🔬 方法详解

问题定义:论文旨在解决现有膳食AI基准缺乏对特定健康状况下膳食推荐能力评估的问题。现有方法主要集中于菜肴识别、食谱理解等,忽略了膳食选择与个体健康状况之间的关联,无法满足膳食即药物的应用需求。

核心思路:论文的核心思路是构建一个多模态基准,包含菜肴图像、配料信息和健康状况信息,并设计相应的任务来评估模型在特定健康状况下进行膳食推荐的能力。通过整合配料证据、视觉准备线索和临床营养约束,模型能够更好地理解菜肴与健康状况之间的关系。

技术框架:FAM-Bench基准包含两个主要任务:菜肴级别适用性评估和比较菜肴分析。菜肴级别适用性评估任务要求模型判断给定菜肴(图像和配料表)是否适合特定健康状况。比较菜肴分析任务要求模型根据特定健康状况对四个候选菜肴的适用性进行排序。整个流程包括数据收集、数据标注(由营养专家进行验证)和任务设计。

关键创新:该基准的关键创新在于其关注健康状况感知的膳食推荐,并提供了一个标准化的测试平台。与现有基准相比,FAM-Bench更侧重于评估模型在实际应用场景中的推理能力,例如为患有糖尿病的患者推荐合适的菜肴。

关键设计:基准数据集包含2500个实例,涵盖13种与饮食相关的健康状况。数据标注由营养专家进行验证,保证了数据的质量和可靠性。任务设计考虑了配料、视觉信息和临床营养约束,使得模型需要综合考虑多种因素才能做出正确的判断。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FAM-Bench基准包含2500个营养专家验证的实例,涵盖13种健康状况,为健康感知膳食推荐提供了一个高质量的测试平台。通过菜肴适用性评估和菜肴比较分析两项任务,可以全面评估模型在不同场景下的推理能力。该基准的发布将促进相关领域的研究和发展。

🎯 应用场景

该研究成果可应用于个性化膳食推荐系统、智能营养咨询平台和健康管理应用等领域。通过利用该基准评估和提升模型的膳食推荐能力,可以为用户提供更精准、更有效的膳食建议,从而改善健康状况,预防疾病。

📄 摘要(原文)

Food-as-Medicine requires models to reason beyond what a dish is or what nutrition it contains: they must decide whether a concrete food choice is appropriate for a specific health condition. Existing food AI benchmarks primarily evaluate dish recognition, recipe understanding, nutrient estimation, or general nutrition question answering, leaving this health-aware decision layer largely untested. We introduce FAM-Bench, a multi-modal Food-as-Medicine benchmark with 2500 nutrition-expert-verified instances across 13 diet-related health conditions. The benchmark contains two complementary tasks: dish-level suitability assessment, where models judge whether a dish is suitable for a condition from its image and ingredient list, and comparative dish analysis, where models rank four candidate dishes by condition-specific suitability. Both tasks require integrating ingredient evidence, visual preparation cues, and clinical nutrition constraints, providing a standardized testbed for grounded health-aware reasoning in language and vision-language models.