BenchSeg: A Large-Scale Dataset and Benchmark for Multi-View Food Video Segmentation
作者: Ahmad AlMughrabi, Guillermo Rivo, Carlos Jiménez-Farfán, Umair Haroon, Farid Al-Areqi, Hyunjun Jung, Benjamin Busam, Ricardo Marques, Petia Radeva
分类: cs.CV
发布日期: 2026-01-12
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
BenchSeg:一个大规模多视角食物视频分割数据集与基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 食物分割 多视角学习 视频分割 数据集 膳食分析
📋 核心要点
- 现有食物图像分割方法缺乏足够的多视角数据,导致模型在新视角下的泛化能力较差,限制了膳食分析的准确性。
- BenchSeg通过构建大规模多视角食物视频数据集,并结合视频记忆模块,提升模型在不同视角下的分割一致性和准确性。
- 实验结果表明,结合SeTR-MLA和XMem2的模型在BenchSeg上表现最佳,显著优于现有方法,为食物分割和跟踪提供了新思路。
📝 摘要(中文)
食物图像分割是膳食分析的关键任务,能够准确估计食物的体积和营养成分。然而,目前的方法受限于多视角数据的匮乏以及对新视角的泛化能力不足。我们推出了BenchSeg,这是一个新颖的多视角食物视频分割数据集和基准。BenchSeg汇集了来自Nutrition5k、Vegetables & Fruits、MetaFood3D和FoodKit的55个菜肴场景,包含25284个精心标注的帧,捕捉了每个菜肴在自由360°相机运动下的图像。我们在现有的FoodSeg103数据集上评估了20种最先进的分割模型(例如,基于SAM、Transformer、CNN和大型多模态模型),并在BenchSeg上评估了它们(单独使用以及与视频记忆模块结合使用)。定量和定性结果表明,虽然标准图像分割器在新视角下性能急剧下降,但记忆增强方法保持了跨帧的时间一致性。我们基于SeTR-MLA+XMem2的最佳模型优于先前的工作(例如,比FoodMem提高了约2.63% mAP),为膳食分析的食物分割和跟踪提供了新的见解。我们发布BenchSeg以促进未来的研究。项目页面包括数据集注释和食物分割模型,网址为https://amughrabi.github.io/benchseg。
🔬 方法详解
问题定义:论文旨在解决食物图像分割中,现有方法在多视角场景下泛化能力差的问题。现有方法通常依赖于单视角或有限视角的图像数据进行训练,导致模型在面对新的、未见过的视角时,分割精度显著下降。这严重影响了膳食分析的准确性,阻碍了相关应用的发展。
核心思路:论文的核心思路是构建一个大规模的多视角食物视频数据集,并利用视频记忆模块来增强模型对不同视角下食物分割的一致性。通过在视频序列中引入时间信息,模型可以更好地理解食物的形状、结构和外观变化,从而提高分割的鲁棒性和准确性。
技术框架:整体框架包括数据收集与标注、模型选择与训练、以及性能评估三个主要阶段。首先,从多个现有食物数据集(Nutrition5k, Vegetables & Fruits, MetaFood3D, FoodKit)中整合数据,并进行精细的像素级标注,构建BenchSeg数据集。然后,选择一系列先进的图像分割模型(如SAM-based, Transformer, CNN)作为基线,并在BenchSeg上进行训练和评估。最后,将这些模型与视频记忆模块(如XMem)结合,进一步提升其在多视角视频分割中的性能。
关键创新:论文的关键创新在于构建了大规模多视角食物视频分割数据集BenchSeg,并验证了视频记忆模块在提升多视角分割性能方面的有效性。BenchSeg的规模和多样性为研究者提供了一个新的基准,促进了相关算法的开发和改进。同时,论文证明了结合视频记忆模块可以显著提高模型在不同视角下的分割一致性和准确性,为未来的研究提供了新的方向。
关键设计:论文的关键设计包括:1) 数据集构建:BenchSeg包含55个菜肴场景,25284个标注帧,覆盖了360°自由相机运动下的各种视角。2) 模型选择:选择了包括SAM、Transformer、CNN等多种类型的分割模型作为基线。3) 视频记忆模块:采用了XMem等视频记忆模块,用于增强模型对时间信息的利用。4) 评估指标:使用了mAP等指标来评估模型的分割性能。
📊 实验亮点
实验结果表明,BenchSeg数据集对现有食物分割模型提出了挑战,标准图像分割器在新视角下性能显著下降。然而,结合视频记忆模块的模型(如SeTR-MLA+XMem2)能够有效提升分割性能,并在BenchSeg上取得了最佳结果,mAP指标比FoodMem提高了约2.63%。这验证了视频记忆模块在多视角食物分割中的有效性。
🎯 应用场景
该研究成果可广泛应用于膳食分析、营养监测、智能餐饮等领域。通过准确分割食物图像,可以自动估计食物的体积和营养成分,为用户提供个性化的饮食建议和健康管理方案。此外,该技术还可以应用于智能烹饪、食品安全检测等领域,具有重要的实际价值和广阔的应用前景。
📄 摘要(原文)
Food image segmentation is a critical task for dietary analysis, enabling accurate estimation of food volume and nutrients. However, current methods suffer from limited multi-view data and poor generalization to new viewpoints. We introduce BenchSeg, a novel multi-view food video segmentation dataset and benchmark. BenchSeg aggregates 55 dish scenes (from Nutrition5k, Vegetables & Fruits, MetaFood3D, and FoodKit) with 25,284 meticulously annotated frames, capturing each dish under free 360° camera motion. We evaluate a diverse set of 20 state-of-the-art segmentation models (e.g., SAM-based, transformer, CNN, and large multimodal) on the existing FoodSeg103 dataset and evaluate them (alone and combined with video-memory modules) on BenchSeg. Quantitative and qualitative results demonstrate that while standard image segmenters degrade sharply under novel viewpoints, memory-augmented methods maintain temporal consistency across frames. Our best model based on a combination of SeTR-MLA+XMem2 outperforms prior work (e.g., improving over FoodMem by ~2.63% mAP), offering new insights into food segmentation and tracking for dietary analysis. We release BenchSeg to foster future research. The project page including the dataset annotations and the food segmentation models can be found at https://amughrabi.github.io/benchseg.