MM-Food-100K: A 100,000-Sample Multimodal Food Intelligence Dataset with Verifiable Provenance

📄 arXiv: 2508.10429v1 📥 PDF

作者: Yi Dong, Yusuke Muraoka, Scott Shi, Yi Zhang

分类: cs.AI, cs.CR, cs.CV

发布日期: 2025-08-14

备注: 10 pages, 5 figures, 6 tables. The dataset is available at https://huggingface.co/datasets/Codatta/MM-Food-100K


💡 一句话要点

提出MM-Food-100K多模态食物数据集,用于提升图像营养预测性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态数据集 食物图像识别 营养预测 社区众包 AI辅助质检

📋 核心要点

  1. 现有食物图像数据集规模有限,且缺乏可验证的数据来源,阻碍了相关研究的进展。
  2. 论文构建了大规模多模态食物数据集MM-Food-100K,利用社区众包和AI辅助质检保证数据质量,并记录数据来源。
  3. 实验表明,在MM-Food-100K上微调大型视觉-语言模型,能够显著提升图像营养预测的性能。

📝 摘要(中文)

本文提出了MM-Food-100K,一个包含10万样本的多模态食物智能数据集,并具有可验证的出处。该数据集是原始120万高质量食物图像语料库的约10%的开放子集,这些图像带有广泛的信息注释(如菜名、产地)。该语料库在六周内由超过87,000名贡献者使用Codatta贡献模型收集,该模型结合了社区众包和可配置的AI辅助质量检查;每个提交都链接到一个安全链下账本中的钱包地址以实现可追溯性,完整的链上协议正在规划中。本文描述了数据集的模式、流程和质量保证,并通过在基于图像的营养预测任务上微调大型视觉-语言模型(ChatGPT 5、ChatGPT OSS、Qwen-Max)来验证其效用。微调在标准指标上始终优于开箱即用的基线;本文主要报告了MM-Food-100K子集上的结果。MM-Food-100K被公开发布以供免费访问,并保留约90%用于潜在的商业访问,并与贡献者分享收入。

🔬 方法详解

问题定义:现有食物图像数据集在规模和质量上存在不足,特别是缺乏可验证的数据来源,这限制了模型训练的效果和可信度。因此,需要构建一个更大规模、更高质量、具有可追溯性的食物图像数据集,以支持更精确的营养预测和其他相关研究。

核心思路:论文的核心思路是通过社区众包的方式收集大量的食物图像数据,并结合AI辅助的质量检查来保证数据质量。同时,利用区块链技术记录数据的来源,实现数据的可追溯性。这种方法能够有效地解决数据规模、质量和可信度的问题。

技术框架:整体流程包括数据收集、质量检查和数据发布三个主要阶段。数据收集阶段利用Codatta贡献模型,鼓励用户上传食物图像并提供相关注释。质量检查阶段采用AI辅助的质量检查方法,自动检测图像质量和注释的准确性。数据发布阶段将高质量的数据集发布给研究人员和开发者使用。

关键创新:该论文的关键创新在于结合了社区众包、AI辅助质检和区块链技术,构建了一个大规模、高质量、具有可追溯性的食物图像数据集。这种方法不仅能够有效地解决数据规模和质量的问题,还能够提高数据的可信度。

关键设计:Codatta贡献模型的设计,鼓励用户积极参与数据贡献,并提供奖励机制。AI辅助质检的具体算法和参数设置,例如图像清晰度检测、目标检测等。区块链技术的应用,例如使用链下账本记录数据来源,以及未来规划的链上协议。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过在MM-Food-100K数据集上微调大型视觉-语言模型(ChatGPT 5、ChatGPT OSS、Qwen-Max),图像营养预测任务的性能得到了显著提升。实验结果表明,微调后的模型在标准指标上始终优于开箱即用的基线模型,验证了该数据集的有效性和价值。

🎯 应用场景

该研究成果可广泛应用于智能餐饮、健康饮食管理、营养分析等领域。例如,用户可以通过上传食物图片,快速获取食物的营养信息,从而更好地管理自己的饮食。此外,该数据集还可以用于训练更精确的食物识别模型,为智能烹饪、食品安全等领域提供技术支持。

📄 摘要(原文)

We present MM-Food-100K, a public 100,000-sample multimodal food intelligence dataset with verifiable provenance. It is a curated approximately 10% open subset of an original 1.2 million, quality-accepted corpus of food images annotated for a wide range of information (such as dish name, region of creation). The corpus was collected over six weeks from over 87,000 contributors using the Codatta contribution model, which combines community sourcing with configurable AI-assisted quality checks; each submission is linked to a wallet address in a secure off-chain ledger for traceability, with a full on-chain protocol on the roadmap. We describe the schema, pipeline, and QA, and validate utility by fine-tuning large vision-language models (ChatGPT 5, ChatGPT OSS, Qwen-Max) on image-based nutrition prediction. Fine-tuning yields consistent gains over out-of-box baselines across standard metrics; we report results primarily on the MM-Food-100K subset. We release MM-Food-100K for publicly free access and retain approximately 90% for potential commercial access with revenue sharing to contributors.