CLASP: General-Purpose Clothes Manipulation with Semantic Keypoints

📄 arXiv: 2507.19983v2 📥 PDF

作者: Yuhong Deng, Chao Tang, Cunjun Yu, Linfeng Li, David Hsu

分类: cs.RO, cs.AI

发布日期: 2025-07-26 (更新: 2025-10-17)


💡 一句话要点

CLASP:基于语义关键点的通用衣物操作方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 衣物操作 语义关键点 机器人 视觉语言模型 RGB-D图像

📋 核心要点

  1. 现有衣物操作方法受限于特定衣物类型和任务,难以处理衣物复杂的高维几何结构。
  2. CLASP利用语义关键点作为中间表示,连接高层任务规划和低层动作执行,实现通用衣物操作。
  3. 仿真和真实机器人实验表明,CLASP在多种任务和衣物类型上优于现有方法,具有良好的泛化能力。

📝 摘要(中文)

本文提出了一种基于语义关键点的通用衣物操作方法CLASP,旨在解决家庭服务机器人对各种衣物类型(如T恤、短裤、裙子、连衣裙等)进行多种任务(如折叠、展平、悬挂等)操作的问题。CLASP的核心思想是利用语义关键点(例如“左袖”和“右肩”)作为一种稀疏的空间-语义表示,这对于感知和动作都非常重要。衣物的语义关键点可以从RGB-D图像中可靠地提取,并为各种衣物操作策略提供有效的表示。CLASP使用语义关键点作为中间表示,连接高层任务规划和低层动作执行。在高层,它利用视觉语言模型(VLM)来预测语义关键点上的任务计划。在低层,它借助一组预先构建的、以关键点为条件的操纵技能来执行计划。大量的仿真实验表明,CLASP在多种衣物类型的多个任务上优于最先进的基线方法,展示了强大的性能和泛化能力。在Franka双臂系统上进行的四个不同任务(折叠、展平、悬挂和放置)的进一步实验证实了CLASP在现实生活中的衣物操作性能。

🔬 方法详解

问题定义:现有衣物操作方法通常针对特定类型的衣物和特定的操作任务,例如专门为T恤设计的折叠算法。这些方法难以泛化到其他衣物类型或任务,因为衣物具有复杂且高维的几何形状,使得设计通用的操作策略非常困难。因此,需要一种能够处理各种衣物类型和任务的通用衣物操作方法。

核心思路:CLASP的核心思路是利用语义关键点作为衣物的稀疏表示。语义关键点,例如“左袖”和“右肩”,既包含了衣物的空间信息,又包含了语义信息,使得机器人能够理解衣物的结构和状态。通过将衣物操作任务分解为对语义关键点的操作,可以将复杂的操作任务简化为一系列简单的动作。这种基于语义关键点的表示方法具有良好的泛化能力,可以应用于各种衣物类型和任务。

技术框架:CLASP的整体框架包括三个主要模块:感知模块、规划模块和执行模块。感知模块负责从RGB-D图像中提取衣物的语义关键点。规划模块利用视觉语言模型(VLM)根据任务目标和当前衣物的语义关键点状态,生成一个操作计划。执行模块根据操作计划,利用预先构建的操纵技能来执行操作。这三个模块协同工作,实现了从感知到动作的完整流程。

关键创新:CLASP最重要的技术创新点在于使用语义关键点作为衣物的中间表示。与传统的基于像素或三维点云的表示方法相比,语义关键点更加稀疏和语义化,更容易被机器人理解和操作。此外,CLASP还利用视觉语言模型(VLM)进行任务规划,使得机器人能够根据自然语言指令执行复杂的衣物操作任务。

关键设计:在感知模块中,使用了深度学习模型来检测和定位衣物的语义关键点。在规划模块中,使用了预训练的视觉语言模型(VLM),并针对衣物操作任务进行了微调。在执行模块中,预先构建了一组基本的操纵技能,例如抓取、放置和移动。这些操纵技能以语义关键点为条件,使得机器人能够根据衣物的状态灵活地调整操作策略。具体的参数设置、损失函数和网络结构等技术细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CLASP在仿真实验中,在多种衣物类型和任务上优于最先进的基线方法,展示了强大的性能和泛化能力。在真实的Franka双臂机器人实验中,CLASP成功地完成了折叠、展平、悬挂和放置等四个不同的衣物操作任务,验证了其在现实环境中的可行性。具体的性能数据和提升幅度在论文中有详细描述(未知)。

🎯 应用场景

CLASP具有广泛的应用前景,可应用于家庭服务机器人、服装制造自动化、仓储物流等领域。例如,家庭服务机器人可以利用CLASP进行衣物整理、折叠和存放等任务,提高生活质量。服装制造企业可以利用CLASP实现服装的自动化处理和包装,提高生产效率。仓储物流企业可以利用CLASP进行衣物的自动分拣和存储,降低人工成本。

📄 摘要(原文)

Clothes manipulation, such as folding or hanging, is a critical capability for home service robots. Despite recent advances, most existing methods remain limited to specific clothes types and tasks, due to the complex, high-dimensional geometry of clothes. This paper presents CLothes mAnipulation with Semantic keyPoints (CLASP), which aims at general-purpose clothes manipulation over diverse clothes types, T-shirts, shorts, skirts, long dresses, ..., as well as different tasks, folding, flattening, hanging, .... The core idea of CLASP is semantic keypoints-e.g., ''left sleeve'' and ''right shoulder''-a sparse spatial-semantic representation, salient for both perception and action. Semantic keypoints of clothes can be reliably extracted from RGB-D images and provide an effective representation for a wide range of clothes manipulation policies. CLASP uses semantic keypoints as an intermediate representation to connect high-level task planning and low-level action execution. At the high level, it exploits vision language models (VLMs) to predict task plans over the semantic keypoints. At the low level, it executes the plans with the help of a set of pre-built manipulation skills conditioned on the keypoints. Extensive simulation experiments show that CLASP outperforms state-of-the-art baseline methods on multiple tasks across diverse clothes types, demonstrating strong performance and generalization. Further experiments with a Franka dual-arm system on four distinct tasks-folding, flattening, hanging, and placing-confirm CLASP's performance on real-life clothes manipulation.