Segmenting Object Affordances: Reproducibility and Sensitivity to Scale

📄 arXiv: 2409.01814v1 📥 PDF

作者: Tommaso Apicella, Alessio Xompero, Paolo Gastaldo, Andrea Cavallaro

分类: cs.CV

发布日期: 2024-09-03

备注: Paper accepted to Workshop on Assistive Computer Vision and Robotics (ACVR) in European Conference on Computer Vision (ECCV) 2024; 24 pages, 9 figures, 5 tables. Code and trained models are available at https://apicis.github.io/aff-seg/

DOI: 10.1007/978-3-031-92591-7_18


💡 一句话要点

可复现的物体可供性分割基准,揭示模型对尺度的敏感性

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 可供性分割 基准测试 可复现性 尺度鲁棒性 Mask2Former 机器人操作

📋 核心要点

  1. 现有可供性分割方法缺乏可复现的实验设置,导致模型性能评估不一致,难以进行公平比较。
  2. 本文构建了可复现的基准测试,并重新训练了Mask2Former模型,用于可供性分割任务,提升了分割性能。
  3. 实验结果表明,现有模型在物体尺度变化时鲁棒性较差,对训练集分辨率敏感。

📝 摘要(中文)

视觉可供性分割旨在识别图像中物体可以被智能体交互的区域。现有方法通常复用和调整基于学习的语义分割架构来完成可供性分割任务,并在小规模数据集上进行评估。然而,实验设置通常不可复现,导致不公平和不一致的比较。本文在一个可复现的设置下,对两种单一物体场景(无遮挡的桌面和手持容器)中的这些方法进行了基准测试,以方便未来的比较。我们包含了一个最近的架构Mask2Former的重新训练版本,用于可供性分割,并表明该模型在两种场景的大多数测试集上表现最佳。我们的分析表明,当物体分辨率与训练集中的分辨率不同时,模型对尺度变化不具有鲁棒性。

🔬 方法详解

问题定义:论文旨在解决可供性分割领域实验结果不可复现,以及现有模型对物体尺度变化敏感的问题。现有方法通常直接采用语义分割模型,缺乏针对可供性分割特点的优化,并且在小规模数据集上进行评估,实验设置不统一,导致结果难以比较。

核心思路:论文的核心思路是构建一个可复现的基准测试平台,并在该平台上对现有方法进行公平比较。同时,通过实验分析模型在不同尺度下的性能表现,揭示模型对尺度的敏感性。

技术框架:论文主要包含以下几个部分:1) 构建可复现的实验环境,包括数据集和评估指标;2) 选择并重新训练一个先进的语义分割模型(Mask2Former)用于可供性分割;3) 在构建的基准测试平台上对现有方法和重新训练的模型进行评估;4) 分析模型在不同尺度下的性能表现。

关键创新:论文的关键创新在于构建了一个可复现的可供性分割基准测试平台,这使得未来的研究可以基于该平台进行公平比较。此外,论文还揭示了现有模型对物体尺度的敏感性,为未来的模型设计提供了指导。

关键设计:论文的关键设计包括:1) 选择Mask2Former作为基线模型,并针对可供性分割任务进行微调;2) 构建包含不同尺度物体的测试集,用于评估模型的尺度鲁棒性;3) 采用标准的分割评估指标,如mAP和mIOU,进行性能评估。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,重新训练的Mask2Former模型在两种场景的大多数测试集上表现最佳,验证了其在可供性分割任务上的有效性。同时,实验也揭示了现有模型对物体尺度的敏感性,当物体分辨率与训练集中的分辨率不同时,模型性能显著下降。

🎯 应用场景

该研究成果可应用于机器人操作、人机交互等领域。例如,机器人可以通过可供性分割识别物体上可供操作的区域,从而实现更智能的抓取、放置等任务。此外,该研究也可以用于增强现实应用,帮助用户更好地理解和交互虚拟物体。

📄 摘要(原文)

Visual affordance segmentation identifies image regions of an object an agent can interact with. Existing methods re-use and adapt learning-based architectures for semantic segmentation to the affordance segmentation task and evaluate on small-size datasets. However, experimental setups are often not reproducible, thus leading to unfair and inconsistent comparisons. In this work, we benchmark these methods under a reproducible setup on two single objects scenarios, tabletop without occlusions and hand-held containers, to facilitate future comparisons. We include a version of a recent architecture, Mask2Former, re-trained for affordance segmentation and show that this model is the best-performing on most testing sets of both scenarios. Our analysis shows that models are not robust to scale variations when object resolutions differ from those in the training set.