Synthetic Data Generation and Vision-based Wrinkle and Keypoint Detection for Bimanual Cloth Manipulation

📄 arXiv: 2606.06292v1 📥 PDF

作者: Ariel Herrera, Xueyang Kang, Atal Anil Kumar

分类: cs.CV, cs.RO

发布日期: 2026-06-04


💡 一句话要点

提出合成数据生成与基于视觉的皱纹和关键点检测以解决双手布料操作问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 合成数据生成 视觉感知 布料操作 关键点检测 机器人技术 YOLOv8 卷积神经网络 双手操作

📋 核心要点

  1. 现有的布料操作方法在处理持续变形和自遮挡时表现不佳,导致视觉感知能力不足。
  2. 论文提出了一种基于合成数据生成的框架,结合CNN和YOLOv8进行关键点和抓取点的检测。
  3. 实验结果显示,关键点模型的平均位置误差为1.7615像素,且在真实布料上表现优于现有基线方法。

📝 摘要(中文)

布料的机器人操作面临挑战,因为持续的变形和自遮挡阻碍了对布料状态的稳健视觉感知。为了解决缺乏标注真实数据的问题,研究者开发了基于Blender的合成数据生成管道,导出自动标注的关键点,并结合手动标注的渲染图与真实数据训练皱纹检测器。本文提出的感知框架整合了用于置换不变关键点检测的卷积神经网络(CNN)和YOLOv8-OpenCV管道,以从结构皱纹中提取抓取点。所提出的双手算法利用该系统通过皱纹拉伸完全折叠的衣物,并在角落出现后转向基于关键点的熨烫。关键点模型的平均位置误差(MPE)为1.7615像素,感知系统在不进行微调的情况下成功转移到物理布料上,优于在高遮挡状态下失败或在严重折叠时产生假阳性的基线模型。

🔬 方法详解

问题定义:本研究旨在解决机器人布料操作中的视觉感知问题,尤其是在布料持续变形和自遮挡情况下,现有方法往往无法提供可靠的状态估计。

核心思路:通过构建一个基于Blender的合成数据生成管道,自动标注关键点,并结合真实数据进行训练,从而提高皱纹检测的准确性和鲁棒性。

技术框架:整体架构包括合成数据生成模块、关键点检测模块(基于CNN)、皱纹检测模块(基于YOLOv8-OpenCV)和双手操作算法,形成一个完整的布料操作感知系统。

关键创新:最重要的创新在于结合合成数据与真实数据进行训练,提升了在高遮挡和复杂折叠情况下的检测性能,克服了传统方法的局限性。

关键设计:在模型设计中,采用了特定的损失函数以优化关键点检测的精度,并在YOLOv8中调整了参数以适应布料特征的提取。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的关键点模型在平均位置误差(MPE)上达到了1.7615像素,且该感知系统在不进行微调的情况下成功应用于物理布料,显著优于在高遮挡状态下的传统基线方法,展示了其在复杂环境下的鲁棒性和准确性。

🎯 应用场景

该研究的潜在应用领域包括智能家居中的自动熨烫、服装制造中的布料处理以及机器人辅助的时尚行业。通过提高机器人对布料的操作能力,可以显著提升生产效率和用户体验,未来可能推动更多智能化的家居和工业应用。

📄 摘要(原文)

Robotic manipulation of textiles remains challenging because continuous deformation and self-occlusions hinder the robust visual perception required to estimate the cloth's state. To address the lack of annotated real-world data, we developed a Blender-based synthetic pipeline exporting auto-annotated keypoints, and combined manually labeled renders with real-world data to train a wrinkle detector. We present a perception framework integrating a CNN for permutation-invariant keypoint detection and a YOLOv8-OpenCV pipeline to extract grasping points from structural wrinkles. A proposed bimanual algorithm uses this system to stretch fully folded garments via wrinkles, transitioning to keypoint-based ironing once corners emerge. The keypoint model achieves a Mean Position Error (MPE) of 1.7615 pixels. The perception system transfers to physical fabrics without fine-tuning, outperforming baselines that fail in high-occlusion states or yield false positives on severe folds.