ViTA-Seg: Vision Transformer for Amodal Segmentation in Robotics

📄 arXiv: 2512.09510v1 📥 PDF

作者: Donato Caramia, Florian T. Pokorny, Giuseppe Triggiani, Denis Ruffino, David Naso, Paolo Roberto Massenio

分类: cs.RO, cs.CV

发布日期: 2025-12-10


💡 一句话要点

ViTA-Seg:用于机器人非完整性分割的视觉Transformer

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 非完整性分割 视觉Transformer 机器人分拣 全局注意力 遮挡处理

📋 核心要点

  1. 机器人分拣中的遮挡问题严重影响了抓取规划的准确性和可靠性,是亟待解决的难题。
  2. ViTA-Seg利用视觉Transformer的全局注意力机制,能够有效恢复被遮挡物体的完整掩码,实现更准确的分割。
  3. 实验结果表明,ViTA-Seg在非完整性和遮挡分割任务上表现出色,且具有较高的计算效率,适用于实时机器人操作。

📝 摘要(中文)

本文提出ViTA-Seg,一个用于实时非完整性分割的类别无关视觉Transformer框架,旨在解决机器人分拣中遮挡导致抓取规划不准确的问题。该框架利用全局注意力机制恢复完整的物体掩码,包括隐藏区域。论文提出了两种架构:a) 单头结构,用于预测非完整性掩码;b) 双头结构,用于预测非完整性和遮挡掩码。此外,论文还引入了ViTA-SimData,一个专为工业分拣场景定制的照片级真实感合成数据集。在COOCA和KINS两个非完整性分割基准上的大量实验表明,ViTA-Seg双头结构在计算效率高的同时,实现了强大的非完整性和遮挡分割精度,从而能够实现鲁棒的实时机器人操作。

🔬 方法详解

问题定义:机器人分拣任务中,物体间的遮挡会导致传统分割方法无法获得物体的完整掩码,进而影响抓取规划的准确性。现有方法通常难以兼顾分割精度和计算效率,无法满足实时性要求。

核心思路:ViTA-Seg的核心在于利用Vision Transformer的全局注意力机制,通过建模图像中不同区域之间的关系,推断被遮挡区域的信息,从而恢复物体的完整掩码。这种方法能够有效利用上下文信息,克服遮挡带来的困难。

技术框架:ViTA-Seg主要包含图像编码器、Transformer模块和掩码解码器三个部分。图像编码器负责提取图像特征,Transformer模块利用自注意力机制建模全局上下文信息,掩码解码器将Transformer的输出映射为像素级别的掩码预测。论文提出了单头和双头两种架构,双头结构可以同时预测非完整性掩码和遮挡掩码。

关键创新:ViTA-Seg的关键创新在于将Vision Transformer应用于非完整性分割任务,并设计了双头结构以同时预测非完整性和遮挡掩码。与传统的卷积神经网络相比,Transformer的全局注意力机制能够更好地建模上下文信息,从而提高分割精度。此外,ViTA-SimData数据集的引入为模型训练提供了充足的数据支持。

关键设计:ViTA-Seg采用了标准的Transformer结构,并针对非完整性分割任务进行了优化。损失函数方面,使用了Dice Loss和Focal Loss的组合,以平衡前景和背景像素的贡献。在数据集方面,ViTA-SimData是一个大规模的合成数据集,包含大量的遮挡场景,可以有效提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ViTA-Seg在COOCA和KINS两个非完整性分割基准上取得了显著的成果。ViTA-Seg双头结构在非完整性分割和遮挡分割任务上均优于现有方法,并且具有较高的计算效率,能够满足实时性要求。此外,ViTA-SimData数据集的引入也为模型训练提供了有力支持。

🎯 应用场景

ViTA-Seg在机器人分拣、自动驾驶、医疗图像分析等领域具有广泛的应用前景。在机器人分拣中,它可以提高抓取规划的准确性和鲁棒性,从而提高分拣效率。在自动驾驶中,它可以帮助识别被遮挡的行人或车辆,提高安全性。在医疗图像分析中,它可以帮助医生识别被遮挡的病灶,提高诊断准确率。

📄 摘要(原文)

Occlusions in robotic bin picking compromise accurate and reliable grasp planning. We present ViTA-Seg, a class-agnostic Vision Transformer framework for real-time amodal segmentation that leverages global attention to recover complete object masks, including hidden regions. We proposte two architectures: a) Single-Head for amodal mask prediction; b) Dual-Head for amodal and occluded mask prediction. We also introduce ViTA-SimData, a photo-realistic synthetic dataset tailored to industrial bin-picking scenario. Extensive experiments on two amodal benchmarks, COOCA and KINS, demonstrate that ViTA-Seg Dual Head achieves strong amodal and occlusion segmentation accuracy with computational efficiency, enabling robust, real-time robotic manipulation.