Automatic Recognition of Food Ingestion Environment from the AIM-2 Wearable Sensor

📄 arXiv: 2405.07827v1 📥 PDF

作者: Yuning Huang, Mohamed Abul Hassan, Jiangpeng He, Janine Higgins, Megan McCrory, Heather Eicher-Miller, Graham Thomas, Edward O Sazonov, Fengqing Maggie Zhu

分类: cs.MM, cs.AI, cs.CV

发布日期: 2024-05-13

备注: Accepted at CVPRw 2024


💡 一句话要点

提出双阶段训练框架,解决可穿戴传感器食物摄入环境识别中的数据不平衡问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 食物摄入环境识别 可穿戴传感器 数据不平衡 两阶段训练 迁移学习

📋 核心要点

  1. 现有食物摄入环境识别方法面临数据不平衡和感知混淆的挑战,人工审核成本高昂。
  2. 论文提出一种基于神经网络的两阶段训练框架,结合微调和迁移学习,以应对数据不平衡问题。
  3. 实验结果表明,该方法在“UA Free Living Study”数据集上取得了96.63%的总体分类准确率。

📝 摘要(中文)

检测食物摄入环境是膳食摄入监测的重要组成部分,为膳食评估提供有价值的信息。然而,这是一个具有挑战性的问题,人工审核繁琐,而基于算法的审核又面临数据不平衡和感知混淆问题。为了解决这些问题,我们提出了一种基于神经网络的方法,该方法采用两阶段训练框架,巧妙地结合了微调和迁移学习技术。我们的方法在一个名为“UA Free Living Study”的新收集的数据集上进行评估,该数据集使用以自我为中心的穿戴式相机AIM-2传感器来模拟自由生活条件下的食物消费。所提出的训练框架应用于常见的神经网络骨干,并结合了一般不平衡分类领域的各种方法。在收集的数据集上的实验结果表明,我们提出的自动摄入环境识别方法成功地解决了数据集中具有挑战性的数据不平衡问题,并实现了96.63%的有希望的总体分类准确率。

🔬 方法详解

问题定义:论文旨在解决使用可穿戴传感器(AIM-2)自动识别食物摄入环境的问题。现有方法在处理实际场景中数据不平衡问题时表现不佳,例如某些环境的样本数量远多于其他环境,导致模型偏向多数类,泛化能力下降。此外,不同环境在视觉上可能存在相似性,导致感知混淆,进一步降低识别准确率。

核心思路:论文的核心思路是利用两阶段训练框架,结合微调和迁移学习,来缓解数据不平衡问题。首先,利用大规模数据集进行预训练,学习通用的视觉特征表示,然后,在目标数据集上进行微调,使模型适应特定任务和环境。这种方法可以有效地利用已有知识,减少对目标数据集样本数量的依赖,提高模型的泛化能力。

技术框架:整体框架包含两个主要阶段:预训练阶段和微调阶段。在预训练阶段,使用大规模图像数据集(例如ImageNet)训练神经网络骨干,学习通用的视觉特征。在微调阶段,使用收集的“UA Free Living Study”数据集,对预训练的骨干网络进行微调,使其适应食物摄入环境识别任务。同时,结合不平衡分类领域的策略,例如重采样或代价敏感学习,进一步优化模型性能。

关键创新:该方法最重要的创新点在于提出了一个针对食物摄入环境识别任务定制的两阶段训练框架。与传统的单阶段训练方法相比,该框架能够更好地利用已有知识,缓解数据不平衡问题,提高模型的泛化能力。此外,该框架具有良好的通用性,可以应用于不同的神经网络骨干,并结合各种不平衡分类策略。

关键设计:论文中,神经网络骨干可以选择常见的网络结构,如ResNet、VGG等。在微调阶段,可以采用不同的学习率策略,例如逐步降低学习率,以避免过拟合。损失函数可以选择交叉熵损失函数,并结合代价敏感学习,对少数类样本赋予更高的权重。此外,还可以采用数据增强技术,例如随机裁剪、旋转等,增加数据的多样性,提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的两阶段训练框架在“UA Free Living Study”数据集上取得了显著的性能提升,总体分类准确率达到96.63%。该方法有效地解决了数据不平衡问题,优于传统的单阶段训练方法。实验还验证了该框架的通用性,可以应用于不同的神经网络骨干,并结合各种不平衡分类策略。

🎯 应用场景

该研究成果可应用于智能膳食监测系统,通过自动识别食物摄入环境,为用户提供更准确的膳食评估和个性化健康建议。例如,可以结合可穿戴设备,实时监测用户的饮食行为,分析其饮食习惯,并提供相应的干预措施,帮助用户改善饮食结构,预防慢性疾病。未来,该技术还可以应用于食品安全监管、餐饮服务等领域。

📄 摘要(原文)

Detecting an ingestion environment is an important aspect of monitoring dietary intake. It provides insightful information for dietary assessment. However, it is a challenging problem where human-based reviewing can be tedious, and algorithm-based review suffers from data imbalance and perceptual aliasing problems. To address these issues, we propose a neural network-based method with a two-stage training framework that tactfully combines fine-tuning and transfer learning techniques. Our method is evaluated on a newly collected dataset called ``UA Free Living Study", which uses an egocentric wearable camera, AIM-2 sensor, to simulate food consumption in free-living conditions. The proposed training framework is applied to common neural network backbones, combined with approaches in the general imbalanced classification field. Experimental results on the collected dataset show that our proposed method for automatic ingestion environment recognition successfully addresses the challenging data imbalance problem in the dataset and achieves a promising overall classification accuracy of 96.63%.