OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion

📄 arXiv: 2604.12356v1 📥 PDF

作者: Dongjian Yu, Weiqing Min, Qian Jiang, Xing Lin, Xin Jin, Shuqiang Jiang

分类: cs.CV

发布日期: 2026-04-14

备注: Accepted by CVPR 2026 (Highlight Paper)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出OmniFood8K数据集和单图营养估计框架,解决中餐营养估计难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 食物营养估计 单图深度估计 频域特征融合 数据集构建 深度学习 计算机视觉 中餐识别

📋 核心要点

  1. 现有食物数据集主要集中在西方菜肴,缺乏对中国菜肴的充分覆盖,限制了对中餐的准确营养估计。
  2. 论文提出了一种端到端的框架,通过预测深度图并利用频域对齐融合RGB和深度特征,实现单张RGB图像的营养预测。
  3. 实验结果表明,该方法在多个数据集上优于现有方法,证明了所提出的OmniFood8K数据集和框架的有效性。

📝 摘要(中文)

为了促进健康饮食习惯和个性化饮食管理,论文提出了OmniFood8K数据集,该数据集包含8036个食物样本,每个样本都有详细的营养标注和多视角图像。为了增强模型在营养预测方面的能力,构建了NutritionSynth-115K,一个大规模合成数据集,引入了成分变化,同时保留了精确的营养标签。此外,论文还提出了一个端到端的框架,用于从单个RGB图像进行营养预测。该框架首先从单个RGB图像预测深度图,并设计了Scale-Shift Residual Adapter (SSRA)来细化深度图,以实现全局尺度一致性和局部结构保持。其次,提出了Frequency-Aligned Fusion Module (FAFM),在频域中分层对齐和融合RGB和深度特征。最后,设计了一个基于Mask的预测头(MPH),通过动态通道选择来强调关键成分区域,从而实现更准确的预测。在多个数据集上的大量实验表明,该方法优于现有方法。

🔬 方法详解

问题定义:论文旨在解决单张RGB图像的食物营养成分精确估计问题,尤其针对现有数据集对中餐覆盖不足的局限性。现有方法依赖深度传感器,限制了其在日常场景中的应用。

核心思路:论文的核心思路是利用单张RGB图像预测深度信息,并在频域中对RGB和深度特征进行对齐和融合,从而更准确地预测食物的营养成分。通过引入合成数据增强模型对成分变化的鲁棒性。

技术框架:整体框架包含三个主要模块:1) 从单张RGB图像预测深度图,并使用Scale-Shift Residual Adapter (SSRA)进行优化;2) 使用Frequency-Aligned Fusion Module (FAFM)在频域中分层对齐和融合RGB和深度特征;3) 使用Mask-based Prediction Head (MPH)通过动态通道选择来强调关键成分区域,最终进行营养成分预测。

关键创新:论文的关键创新在于:1) 构建了包含丰富中餐数据的OmniFood8K数据集;2) 提出了Frequency-Aligned Fusion Module (FAFM),该模块能够在频域中有效地对齐和融合RGB和深度特征,从而提升营养预测的准确性;3) 设计了Scale-Shift Residual Adapter (SSRA)来提升单图深度估计的质量。

关键设计:SSRA的设计旨在保持全局尺度一致性和局部结构,具体结构未知。FAFM的具体实现细节,如使用的频域变换方法(例如傅里叶变换、小波变换等)以及对齐策略未知。MPH通过动态通道选择机制来关注关键成分区域,具体实现方式未知。损失函数的设计也未知,但可能包含回归损失和正则化项。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的方法在多个食物数据集上进行了评估,结果表明该方法优于现有的营养预测方法。具体的性能提升数据未知,但摘要中明确指出“在多个数据集上的大量实验表明,该方法优于现有方法”。OmniFood8K数据集的发布也为该领域的研究提供了新的资源。

🎯 应用场景

该研究成果可应用于智能饮食管理App、健康咨询平台等,帮助用户通过拍摄食物照片快速获取营养信息,从而实现个性化饮食推荐和健康管理。未来可扩展到其他菜系,并结合用户个人健康数据,提供更精准的营养建议。

📄 摘要(原文)

Accurate estimation of food nutrition plays a vital role in promoting healthy dietary habits and personalized diet management. Most existing food datasets primarily focus on Western cuisines and lack sufficient coverage of Chinese dishes, which restricts accurate nutritional estimation for Chinese meals. Moreover, many state-of-the-art nutrition prediction methods rely on depth sensors, restricting their applicability in daily scenarios. To address these limitations, we introduce OmniFood8K, a comprehensive multimodal dataset comprising 8,036 food samples, each with detailed nutritional annotations and multi-view images. In addition, to enhance models' capability in nutritional prediction, we construct NutritionSynth-115K, a large-scale synthetic dataset that introduces compositional variations while preserving precise nutritional labels. Moreover, we propose an end-to-end framework for nutritional prediction from a single RGB image. First, we predict a depth map from a single RGB image and design the Scale-Shift Residual Adapter (SSRA) to refine it for global scale consistency and local structural preservation. Second, we propose the Frequency-Aligned Fusion Module (FAFM) to hierarchically align and fuse RGB and depth features in the frequency domain. Finally, we design a Mask-based Prediction Head (MPH) to emphasize key ingredient regions via dynamic channel selection for more accurate prediction. Extensive experiments on multiple datasets demonstrate the superiority of our method over existing approaches. Project homepage: https://yudongjian.github.io/OmniFood8K-food/