FoodTrack: Estimating Handheld Food Portions with Egocentric Video

📄 arXiv: 2505.04055v1 📥 PDF

作者: Ervin Wang, Yuhao Chen

分类: cs.CV

发布日期: 2025-05-07

备注: Accepted as extended abstract at CVPR 2025 Metafood workshop


💡 一句话要点

FoodTrack:利用第一人称视角视频估计手持食物的份量

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 食物体积估计 第一人称视角视频 手持食物 深度学习 营养监测

📋 核心要点

  1. 现有食物摄入量估计方法依赖特定视角、无遮挡图像或手势识别,对咬食大小进行假设,缺乏直接体积测量。
  2. FoodTrack利用第一人称视角视频,直接估计手持食物体积,无需依赖手势或固定假设,对遮挡和姿态变化更鲁棒。
  3. 实验表明,FoodTrack在手持食物体积估计上实现了7.01%的绝对百分比损失,优于现有方法。

📝 摘要(中文)

精确追踪食物摄入量对于营养和健康监测至关重要。传统方法通常需要特定的相机角度、无遮挡图像,或者依赖于手势识别来估计摄入量,从而假设了咬食的大小,而不是直接测量食物体积。我们提出了FoodTrack框架,用于使用第一人称视角视频来跟踪和测量手持食物的体积,该框架对于手部遮挡具有鲁棒性,并且可以灵活地适应不同的相机和物体姿势。FoodTrack直接估计食物体积,而不依赖于摄入姿势或关于咬食大小的固定假设,从而为跟踪食物消耗提供了一种更准确和适应性更强的解决方案。在手持食物对象上,我们实现了约7.01%的绝对百分比损失,优于先前方法在不太灵活的条件下实现的最佳情况下的16.40%平均绝对百分比误差。

🔬 方法详解

问题定义:现有食物摄入量估计方法存在局限性,例如需要特定的相机角度、无遮挡的图像,或者依赖于手势识别来推断食物的消耗量。这些方法通常假设每次咬食的体积是固定的,而忽略了食物形状、密度等因素的影响,导致估计精度不高。此外,手部遮挡、相机和食物姿态变化等因素也会影响估计的准确性。

核心思路:FoodTrack的核心思路是直接从第一人称视角视频中估计手持食物的体积,避免了对咬食大小的假设和对特定视角的依赖。通过分析视频帧中的食物图像,提取食物的形状、大小等特征,并结合深度信息,计算出食物的体积。这种方法能够更好地适应不同的食物类型、手部遮挡情况和相机姿态变化。

技术框架:FoodTrack框架主要包含以下几个模块:1) 视频采集:使用第一人称视角相机记录用餐过程的视频。2) 食物检测与分割:利用图像处理和深度学习技术,检测视频帧中的食物区域,并将其分割出来。3) 特征提取:提取食物区域的形状、大小、纹理等特征,以及深度信息。4) 体积估计:基于提取的特征和深度信息,建立体积估计模型,计算食物的体积。5) 跟踪与更新:在视频序列中跟踪食物的位置和形状变化,并根据新的观测结果更新体积估计。

关键创新:FoodTrack的关键创新在于:1) 直接从第一人称视角视频估计食物体积,无需依赖手势识别或对咬食大小的假设。2) 采用图像处理和深度学习技术,对食物进行精确的检测和分割。3) 结合形状、大小、纹理和深度信息,建立鲁棒的体积估计模型。4) 能够处理手部遮挡和相机姿态变化等复杂情况。

关键设计:FoodTrack的关键设计包括:1) 使用深度学习模型进行食物检测和分割,例如Mask R-CNN等。2) 设计合适的特征提取方法,例如提取食物的轮廓、面积、周长、颜色直方图等。3) 建立体积估计模型,例如使用回归模型或深度学习模型,将提取的特征映射到食物的体积。4) 使用卡尔曼滤波等跟踪算法,对食物的位置和形状进行跟踪,并根据新的观测结果更新体积估计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FoodTrack在手持食物体积估计任务上取得了显著的性能提升。实验结果表明,FoodTrack在手持食物对象上实现了约7.01%的绝对百分比损失,优于先前方法在不太灵活的条件下实现的最佳情况下的16.40%平均绝对百分比误差。这表明FoodTrack能够更准确地估计手持食物的体积,为食物摄入量跟踪提供了一种更可靠的解决方案。

🎯 应用场景

FoodTrack具有广泛的应用前景,可用于营养监测、饮食管理、健康评估等领域。例如,可以帮助糖尿病患者精确记录食物摄入量,控制血糖水平;可以为运动员提供个性化的饮食建议,提高运动表现;可以为肥胖人群提供饮食干预方案,帮助他们控制体重。此外,FoodTrack还可以应用于食品安全领域,例如检测食品的体积是否符合标准。

📄 摘要(原文)

Accurately tracking food consumption is crucial for nutrition and health monitoring. Traditional approaches typically require specific camera angles, non-occluded images, or rely on gesture recognition to estimate intake, making assumptions about bite size rather than directly measuring food volume. We propose the FoodTrack framework for tracking and measuring the volume of hand-held food items using egocentric video which is robust to hand occlusions and flexible with varying camera and object poses. FoodTrack estimates food volume directly, without relying on intake gestures or fixed assumptions about bite size, offering a more accurate and adaptable solution for tracking food consumption. We achieve absolute percentage loss of approximately 7.01% on a handheld food object, improving upon a previous approach that achieved a 16.40% mean absolute percentage error in its best case, under less flexible conditions.