MetaFold: Language-Guided Multi-Category Garment Folding Framework via Trajectory Generation and Foundation Model
作者: Haonan Chen, Junxiao Li, Ruihai Wu, Yiwei Liu, Yiwen Hou, Zhixuan Xu, Jingxiang Guo, Chongkai Gao, Zhenyu Wei, Shensi Xu, Jiaqi Huang, Lin Shao
分类: cs.RO
发布日期: 2025-03-11 (更新: 2025-08-13)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
MetaFold:基于轨迹生成和基础模型的语言引导多类别服装折叠框架
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 服装折叠 机器人操作 轨迹生成 基础模型 语言引导 多类别学习 任务规划 动作预测
📋 核心要点
- 服装折叠因其形变特性,状态空间巨大,传统方法依赖预定义关键点,泛化性受限。
- MetaFold解耦任务规划与动作预测,利用语言引导轨迹生成和基础模型提升泛化性。
- 实验结果表明,MetaFold框架在多类别服装折叠任务中表现出优越性。
📝 摘要(中文)
本文提出了一种名为MetaFold的服装折叠框架,旨在解决机器人操作中服装折叠这一常见但具有挑战性的任务。服装的易变形性导致巨大的状态空间和复杂的动力学,使得精确和细粒度的操作变得复杂。以往的方法通常依赖于预定义的关键点或演示,限制了其在不同服装类别中的泛化能力。MetaFold将任务规划与动作预测解耦,分别学习以增强模型的泛化能力。它采用语言引导的点云轨迹生成进行任务规划,并使用低级基础模型进行动作预测。这种结构促进了多类别学习,使模型能够灵活地适应各种用户指令和折叠任务。实验结果表明了我们提出的框架的优越性。
🔬 方法详解
问题定义:服装折叠任务由于服装的易变形性,导致状态空间巨大且动力学复杂,使得机器人难以进行精确操作。现有方法通常依赖于预定义的关键点或人工示教,这限制了模型在不同服装类别上的泛化能力,难以适应多样化的用户指令和折叠需求。
核心思路:MetaFold的核心思路是将服装折叠任务分解为任务规划和动作预测两个独立的部分。任务规划负责生成期望的折叠轨迹,动作预测则负责控制机器人执行这些轨迹。通过解耦这两个部分,可以分别优化它们的性能,从而提高整体的泛化能力和适应性。利用语言引导,使模型能理解用户指令,并生成相应的折叠策略。
技术框架:MetaFold框架主要包含两个模块:语言引导的点云轨迹生成模块和低级基础模型动作预测模块。首先,用户输入语言指令,轨迹生成模块根据指令生成一系列关键点,构成点云轨迹。然后,动作预测模块接收点云轨迹,并将其转化为机器人可执行的动作序列,控制机器人完成服装折叠。
关键创新:MetaFold的关键创新在于将任务规划和动作预测解耦,并分别使用不同的方法进行优化。使用语言引导的点云轨迹生成方法,能够根据用户指令灵活地生成不同的折叠策略,提高了模型的适应性。同时,使用低级基础模型进行动作预测,能够利用预训练模型的强大能力,提高动作预测的准确性和鲁棒性。
关键设计:在轨迹生成模块中,使用了Transformer网络来处理语言指令,并生成对应的点云轨迹。损失函数包括轨迹平滑损失、轨迹与目标形状的匹配损失等。在动作预测模块中,使用了预训练的视觉-触觉基础模型,并针对服装折叠任务进行了微调。具体网络结构和参数设置未知。
🖼️ 关键图片
📊 实验亮点
论文提出的MetaFold框架在多类别服装折叠任务中表现出优越性。具体性能数据未知,但摘要强调了其在泛化能力和适应性方面的提升。通过解耦任务规划和动作预测,MetaFold能够更好地适应不同的用户指令和服装类别,相较于依赖预定义关键点或人工示教的传统方法,具有显著的优势。
🎯 应用场景
MetaFold框架具有广泛的应用前景,可应用于自动化服装生产线、智能仓储、家庭服务机器人等领域。通过该框架,机器人可以根据用户指令自动完成服装折叠任务,提高生产效率和服务质量。未来,该技术有望进一步扩展到其他柔性物体的操作任务中,例如毛巾、床单等。
📄 摘要(原文)
Garment folding is a common yet challenging task in robotic manipulation. The deformability of garments leads to a vast state space and complex dynamics, which complicates precise and fine-grained manipulation. Previous approaches often rely on predefined key points or demonstrations, limiting their generalization across diverse garment categories. This paper presents a framework, MetaFold, that disentangles task planning from action prediction, learning each independently to enhance model generalization. It employs language-guided point cloud trajectory generation for task planning and a low-level foundation model for action prediction. This structure facilitates multi-category learning, enabling the model to adapt flexibly to various user instructions and folding tasks. Experimental results demonstrate the superiority of our proposed framework. Supplementary materials are available on our website: https://meta-fold.github.io/.