Learning Bimanual Cloth Manipulation with Vision-based Tactile Sensing via Single Robotic Arm

📄 arXiv: 2603.10609v1 📥 PDF

作者: Dongmyoung Lee, Wei Chen, Xiaoshuai Chen, Rui Zong, Petar Kormushev

分类: cs.RO

发布日期: 2026-03-11

备注: 11 pages, 13 figures


💡 一句话要点

提出Touch G.O.G.,利用单臂机器人和视觉触觉进行双手动布料操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人布料操作 视觉触觉融合 单臂机器人 柔性物体操作 Vision Transformer 合成数据生成

📋 核心要点

  1. 机器人布料操作面临布料状态空间高维、易变形和视觉遮挡等挑战,限制了操作的可靠性。
  2. Touch G.O.G.通过单臂机器人和视觉触觉融合,实现了夹爪内布料滑动,简化了硬件和控制。
  3. 实验表明,该方法在布料部件分类和边缘姿态估计方面表现出色,并能有效展开褶皱布料。

📝 摘要(中文)

由于布料的高维状态空间、易变形特性以及视觉感知受限,机器人布料操作仍然具有挑战性。双臂系统虽然可以缓解这些问题,但增加了硬件和控制的复杂性。本文提出Touch G.O.G.,一种紧凑的基于视觉的触觉夹爪和感知/控制框架,用于单臂双手动布料操作。该框架结合了三个关键组件:(1) 一种新颖的夹爪设计和控制策略,用于单机器人手臂的夹爪内布料滑动;(2) 一个基于视觉基础模型 Vision Transformer 的流水线,利用真实和合成的触觉图像进行布料部件分类 (PC-Net) 和边缘姿态估计 (PE-Net);(3) 一个编码器-解码器合成数据生成器 (SD-Net),通过生成高保真触觉图像来减少手动标注。实验表明,在区分边缘、角、内部区域和抓取失败方面,准确率达到 96%,边缘定位误差小于 1 毫米,方向误差为 4.5°。真实世界的结果表明,即使对于褶皱的织物,仅使用单个机器人手臂也能可靠地展开布料。这些结果表明 Touch G.O.G. 是一种紧凑且经济高效的柔性物体操作解决方案。

🔬 方法详解

问题定义:机器人布料操作的关键问题在于如何有效地感知和控制易变形的布料,尤其是在视觉信息受限的情况下。现有方法,如双臂系统,虽然可以提高操作的灵活性,但增加了硬件成本和控制复杂度。单臂操作的难点在于如何模拟双手的协同操作,实现复杂的布料操作任务。

核心思路:Touch G.O.G.的核心思路是利用单臂机器人上的特殊设计的触觉夹爪,通过夹爪内的布料滑动来模拟双手的操作。同时,结合视觉触觉感知,准确识别布料的部件和边缘姿态,从而实现精确的布料操作。这种方法旨在降低硬件成本和控制复杂度,同时提高操作的可靠性。

技术框架:Touch G.O.G.框架包含三个主要模块:(1) 触觉夹爪设计和控制,实现夹爪内的布料滑动;(2) 基于视觉基础模型的视觉Transformer流水线,包括PC-Net(布料部件分类)和PE-Net(边缘姿态估计),利用真实和合成的触觉图像进行训练;(3) SD-Net,一个编码器-解码器结构的合成数据生成器,用于生成高保真触觉图像,减少人工标注工作。整体流程是:机器人利用触觉夹爪抓取布料,通过视觉触觉感知获取布料信息,然后根据感知结果控制夹爪进行布料滑动和操作。

关键创新:该论文的关键创新在于将视觉触觉感知与单臂机器人的夹爪内布料滑动相结合,实现了一种紧凑且经济高效的布料操作方案。通过视觉基础模型和合成数据生成,提高了感知精度和鲁棒性,降低了人工标注成本。

关键设计:PC-Net和PE-Net均采用Vision Transformer作为骨干网络,利用视觉基础模型进行预训练,以提高特征提取能力。SD-Net采用编码器-解码器结构,通过对抗训练等技术生成高保真触觉图像。夹爪设计允许在夹爪内部进行布料滑动,从而模拟双手的操作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Touch G.O.G.在布料部件分类方面达到了96%的准确率,边缘定位误差小于1毫米,方向误差为4.5°。与传统的双臂系统相比,该方法在硬件成本和控制复杂度方面具有显著优势。此外,真实世界实验证明,该方法能够可靠地展开褶皱的布料,展示了其在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于服装制造、纺织品处理、医疗卫生等领域。例如,在服装制造中,机器人可以自动完成布料的裁剪、缝纫等任务,提高生产效率和质量。在医疗卫生领域,机器人可以用于处理手术衣物、床单等,减少人工接触,降低感染风险。未来,该技术有望应用于更广泛的柔性物体操作场景。

📄 摘要(原文)

Robotic cloth manipulation remains challenging due to the high-dimensional state space of fabrics, their deformable nature, and frequent occlusions that limit vision-based sensing. Although dual-arm systems can mitigate some of these issues, they increase hardware and control complexity. This paper presents Touch G.O.G., a compact vision-based tactile gripper and perception/control framework for single-arm bimanual cloth manipulation. The proposed framework combines three key components: (1) a novel gripper design and control strategy for in-gripper cloth sliding with a single robot arm, (2) a Vision Foundation Model-backboned Vision Transformer pipeline for cloth part classification (PC-Net) and edge pose estimation (PE-Net) using real and synthetic tactile images, and (3) an encoder-decoder synthetic data generator (SD-Net) that reduces manual annotation by producing high-fidelity tactile images. Experiments show 96% accuracy in distinguishing edges, corners, interior regions, and grasp failures, together with sub-millimeter edge localization and 4.5° orientation error. Real-world results demonstrate reliable cloth unfolding, even for crumpled fabrics, using only a single robotic arm. These results highlight Touch G.O.G. as a compact and cost-effective solution for deformable object manipulation.