PerBite: A Curated Diagnostic Workflow for Bite-Aware Food Volume Estimation

📄 arXiv: 2606.02021v1 📥 PDF

作者: Ahmad AlMughrabi, Farid Al-Areqi, David Fernández Gómez, Umair Haroon, Marc Bolaños, Ricardo Marques, Petia Radeva

分类: cs.CV

发布日期: 2026-06-01

🔗 代码/项目: GITHUB


💡 一句话要点

PerBite提出了一种基于咬合感知的食物体积估计诊断工作流程,在MetaFood挑战赛中获得领先。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 食物体积估计 3D重建 语义分割 网格处理 膳食评估

📋 核心要点

  1. 现有方法在食物体积估计中,难以保证重建网格的准确性和物理一致性,影响膳食评估的可靠性。
  2. PerBite提出一种精选的重建流程,结合SAM分割、Hunyuan3D网格生成、Blender清理和水密体积积分,确保网格质量。
  3. 实验表明,该方法在MetaFood挑战赛中取得领先,并在体积估计的MAPE和单调性违例方面表现出色。

📝 摘要(中文)

该研究探讨了视觉上合理的食物网格是否可信地用于估计食物消耗量。论文基于MetaFood CVPR 2026挑战赛中选定的食用前后的配对状态,提出了一种精选的重建流程:SAM分割食物和盘子区域;Hunyuan3D/SAM 3D生成无量纲食物网格;盘子直径提供度量尺度;在Blender中移除盘子几何结构;剩余网格进行孔洞填充、水密化和积分以估计体积。MoGe-2仅作为辅助线索,用于在直接盘子测量不确定时进行初始盘子直径估计。该方法在34个网格上使用无尺度校正的刚性ICP实现了8.31的平均Chamfer距离,排名第一。在17个食用前后配对中,实现了33.87%的状态级体积MAPE和零单调性违例,而消耗体积MAPE保持在53.74%。结果表明,表面重建、度量尺度、受控网格清理、水密体积积分和物理损耗一致性应分别进行评估,以用于膳食评估。

🔬 方法详解

问题定义:论文旨在解决如何利用视觉信息准确估计食物消耗量的问题。现有方法在食物体积估计中存在诸多痛点,例如,重建的3D网格可能存在几何失真,缺乏度量尺度,以及未考虑食物消耗的物理一致性,导致体积估计误差较大,难以满足膳食评估的需求。

核心思路:论文的核心思路是构建一个精细化的、可控的3D重建和体积估计流程,该流程不仅关注视觉上的逼真度,更注重几何精度、度量尺度校正以及物理损耗一致性。通过对每个步骤进行精细控制,从而提高食物体积估计的准确性和可靠性。

技术框架:PerBite工作流程包含以下主要阶段:1) 使用SAM分割食物和盘子区域;2) 使用Hunyuan3D/SAM 3D生成无量纲食物网格;3) 使用盘子直径提供度量尺度;4) 在Blender中移除盘子几何结构;5) 对剩余网格进行孔洞填充和水密化处理;6) 对水密网格进行积分以估计体积。MoGe-2仅用于辅助初始盘子直径估计。

关键创新:该方法最重要的创新点在于其精选的重建流程和对关键步骤的细致处理。与以往方法相比,PerBite更加注重度量尺度的准确性,通过盘子直径进行校正,避免了无尺度网格带来的误差。此外,该方法还强调网格清理和水密化处理,确保体积积分的准确性。

关键设计:在技术细节方面,该方法使用SAM进行精确的食物和盘子分割,为后续的3D重建奠定基础。Hunyuan3D/SAM 3D用于生成初始网格,Blender用于进行网格清理和编辑。关键在于使用盘子直径作为度量尺度,并通过孔洞填充和水密化处理,确保体积积分的准确性。此外,MoGe-2被巧妙地用作辅助工具,用于初始盘子直径估计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PerBite在MetaFood CVPR 2026挑战赛中排名第一,在34个网格上使用无尺度校正的刚性ICP实现了8.31的平均Chamfer距离。在17个食用前后配对中,实现了33.87%的状态级体积MAPE和零单调性违例,而消耗体积MAPE保持在53.74%。这些结果表明,该方法在食物体积估计方面具有显著优势。

🎯 应用场景

该研究成果可应用于智能餐饮、健康管理、营养评估等领域。通过准确估计食物消耗量,可以帮助用户更好地控制饮食,预防肥胖等健康问题。此外,该技术还可用于膳食调查和营养研究,为制定合理的膳食指南提供数据支持。未来,该技术有望与可穿戴设备结合,实现实时的膳食监测和个性化营养建议。

📄 摘要(原文)

Can a visually plausible food mesh be trusted to estimate the volume of consumed food? \method investigates this question using selected paired before- and after-consumption states from the MetaFood CVPR 2026 Continuous 3D Reconstruction While Eating Challenge. The submitted workflow follows a curated reconstruction protocol: SAM~3 segments the food and plate regions; Hunyuan3D/SAM~3D generates a dimensionless food mesh; the plate diameter provides the metric scale; the plate geometry is removed in Blender; and the remaining mesh is hole-filled, made watertight, and integrated to estimate volume. MoGe-2 is used only as an auxiliary cue for initial dish-diameter estimation when direct plate measurement is uncertain; it is not the primary scale source for the reported challenge result. \method ranks first, with an average Chamfer distance of 8.31 across 34 meshes using rigid ICP without scale correction. On 17 before- and after-pairs, it achieves 33.87\% state-level volume MAPE and zero monotonicity violations, while consumed-volume MAPE remains 53.74\%. The results show that surface reconstruction, metric scale, controlled mesh cleanup, watertight volume integration, and physical depletion consistency should be evaluated separately for dietary assessment. Source code and evaluation scripts will be available at \href{https://github.com/GCVCG/PerBite-CVPR-MetaFood-2026}{github.com/GCVCG/PerBite-CVPR-MetaFood-2026}.