SSFold: Learning to Fold Arbitrary Crumpled Cloth Using Graph Dynamics from Human Demonstration

📄 arXiv: 2411.02608v2 📥 PDF

作者: Changshi Zhou, Haichuan Xu, Jiarui Hu, Feng Luan, Zhipeng Wang, Yanchao Dong, Yanmin Zhou, Bin He

分类: cs.RO

发布日期: 2024-10-24 (更新: 2025-06-28)

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

SSFold:利用人类演示中的图动力学学习折叠任意褶皱的布料

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 布料操作 机器人 图动力学 人类演示 深度学习

📋 核心要点

  1. 现有布料操作方法过度依赖仿真,难以解决仿真到真实世界的差距,且通常只关注孤立的平整或折叠任务。
  2. 提出一种双流架构,包含序列和空间通路,利用连通性动力学模型构建可见性图,从部分观测推断完整布料配置。
  3. 通过集成人类演示数据,提升模型在真实世界的适应性,并在多种布料折叠任务上取得了优于现有方法的性能。

📝 摘要(中文)

由于织物复杂的动力学特性和高维度的配置空间,机器人布料操作面临着诸多挑战。以往的方法主要集中在孤立的平整或折叠任务上,并且过度依赖仿真,难以弥合可变形物体操作中巨大的仿真到真实世界的差距。为了克服这些挑战,我们提出了一种具有序列和空间双通路架构,将平整和折叠任务统一到一个可适应的策略模型中,该模型可以适应各种布料类型和状态。序列通路确定布料的拾取和放置位置,而空间通路使用连通性动力学模型,从自遮挡布料的部分点云数据构建可见性图,使机器人能够从不完整的观察中推断出布料的完整配置。为了弥合仿真到真实世界的差距,我们利用手部跟踪检测算法来收集和整合人类演示数据到我们新颖的端到端神经网络中,从而提高真实世界的适应性。我们的方法在UR5机器人上,针对四种具有不同目标形状的布料折叠任务进行了验证,始终能够从任意褶皱的初始配置中实现折叠状态,成功率分别为99%、99%、83%和67%。它优于现有的最先进的布料操作技术,并展示了对真实世界实验中具有不同颜色、形状和硬度的未见布料的强大泛化能力。

🔬 方法详解

问题定义:论文旨在解决机器人如何从任意褶皱的初始状态折叠各种布料的问题。现有方法主要依赖仿真,存在严重的sim-to-real差距,并且通常只关注单一的平整或折叠任务,缺乏通用性和适应性。

核心思路:论文的核心思路是将平整和折叠任务统一到一个可适应的策略模型中,通过序列通路确定拾取和放置位置,并通过空间通路利用可见性图推断布料的完整配置,从而实现对各种布料类型和状态的鲁棒操作。同时,利用人类演示数据来弥合sim-to-real差距。

技术框架:该方法采用一个双流架构,包含序列通路和空间通路。序列通路负责确定布料的拾取和放置位置,通常使用强化学习或模仿学习方法训练。空间通路则利用连通性动力学模型,从部分点云数据构建可见性图,用于推断布料的完整配置。整个系统通过端到端的方式进行训练,并利用人类演示数据进行微调,以提高真实世界的适应性。

关键创新:该方法的主要创新点在于:1) 提出了一个统一的框架,可以同时处理平整和折叠任务;2) 利用连通性动力学模型构建可见性图,从而能够从部分观测推断布料的完整配置;3) 通过集成人类演示数据,显著提高了模型在真实世界的适应性。

关键设计:空间通路中的连通性动力学模型是关键设计之一,它通过学习布料的连接关系,从而能够从部分观测推断出完整的布料形状。损失函数的设计也至关重要,需要平衡序列通路和空间通路之间的贡献,并确保模型能够学习到有效的折叠策略。此外,人类演示数据的选择和处理方式也会影响模型的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在四种不同的布料折叠任务上取得了显著的成果,成功率分别为99%、99%、83%和67%。与现有的最先进的布料操作技术相比,该方法具有更高的成功率和更好的泛化能力,能够处理具有不同颜色、形状和硬度的未见布料。实验结果表明,该方法能够有效地解决sim-to-real差距,并在真实世界中实现鲁棒的布料操作。

🎯 应用场景

该研究成果可应用于服装制造、家政服务、医疗卫生等领域。例如,在服装制造中,机器人可以自动完成布料的折叠和整理,提高生产效率。在家政服务中,机器人可以帮助人们整理衣物,减轻家务负担。在医疗卫生领域,机器人可以用于处理医疗布料,减少交叉感染的风险。未来,该技术有望进一步发展,实现对更复杂形状和材质的布料的操作。

📄 摘要(原文)

Robotic cloth manipulation faces challenges due to the fabric's complex dynamics and the high dimensionality of configuration spaces. Previous methods have largely focused on isolated smoothing or folding tasks and overly reliant on simulations, often failing to bridge the significant sim-to-real gap in deformable object manipulation. To overcome these challenges, we propose a two-stream architecture with sequential and spatial pathways, unifying smoothing and folding tasks into a single adaptable policy model that accommodates various cloth types and states. The sequential stream determines the pick and place positions for the cloth, while the spatial stream, using a connectivity dynamics model, constructs a visibility graph from partial point cloud data of the self-occluded cloth, allowing the robot to infer the cloth's full configuration from incomplete observations. To bridge the sim-to-real gap, we utilize a hand tracking detection algorithm to gather and integrate human demonstration data into our novel end-to-end neural network, improving real-world adaptability. Our method, validated on a UR5 robot across four distinct cloth folding tasks with different goal shapes, consistently achieves folded states from arbitrary crumpled initial configurations, with success rates of 99\%, 99\%, 83\%, and 67\%. It outperforms existing state-of-the-art cloth manipulation techniques and demonstrates strong generalization to unseen cloth with diverse colors, shapes, and stiffness in real-world experiments.Videos and source code are available at: https://zcswdt.github.io/SSFold/