BiFold: Bimanual Cloth Folding with Language Guidance

📄 arXiv: 2501.16458v2 📥 PDF

作者: Oriol Barbany, Adrià Colomé, Carme Torras

分类: cs.RO, cs.CV

发布日期: 2025-01-27 (更新: 2025-06-16)

备注: Accepted at ICRA 2025. Project page at https://barbany.github.io/bifold/


💡 一句话要点

BiFold:基于语言引导的双臂机器人服装折叠方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人 服装折叠 双臂操作 视觉-语言模型 模仿学习 自然语言处理 数据集

📋 核心要点

  1. 服装折叠因衣物自遮挡和多样性而复杂,现有方法难以有效处理。
  2. BiFold利用预训练视觉-语言模型,将文本指令转化为机器人操作动作。
  3. BiFold在新的双臂折叠数据集上表现出色,并具有良好的泛化能力。

📝 摘要(中文)

由于衣物不可避免的自遮挡、复杂的动力学特性以及材质、几何形状和纹理的多样性,服装折叠是一项复杂的任务。本文提出了一种基于文本指令学习折叠动作的方法。将高层次、抽象的指令转化为精确的机器人动作需要复杂的语言理解和操作能力。为此,我们利用预训练的视觉-语言模型,并将其重新用于预测操作动作。我们的模型BiFold可以考虑上下文,并在现有的语言条件折叠基准上实现了最先进的性能。为了解决缺乏带标注的双臂折叠数据的问题,我们引入了一个新的数据集,该数据集具有自动解析的动作和语言对齐的指令,从而能够更好地学习文本条件操作。BiFold在我们的数据集上获得了最佳性能,并展示了对新指令、服装和环境的强大泛化能力。

🔬 方法详解

问题定义:论文旨在解决机器人服装折叠任务中,如何利用自然语言指令引导双臂机器人完成复杂折叠动作的问题。现有方法在处理衣物自遮挡、材料多样性以及将抽象语言指令转化为精确动作方面存在不足。缺乏大规模、高质量的语言对齐的双臂操作数据集也是一个挑战。

核心思路:论文的核心思路是利用预训练的视觉-语言模型,学习从文本指令到机器人操作动作的映射关系。通过将视觉信息和语言信息融合,模型能够理解指令的意图,并生成相应的折叠动作。这种方法能够更好地处理衣物的复杂性和指令的抽象性。

技术框架:BiFold模型主要包含以下几个模块:1) 视觉编码器:用于提取衣物的视觉特征。2) 语言编码器:用于提取文本指令的语义特征。3) 动作预测模块:将视觉特征和语言特征融合,预测机器人双臂的动作序列。4) 奖励函数:用于评估折叠动作的质量,并指导模型的训练。整个流程是:输入图像和文本指令,经过编码器提取特征,然后通过动作预测模块生成动作序列,最后通过奖励函数进行评估和优化。

关键创新:论文的关键创新在于:1) 将预训练的视觉-语言模型应用于机器人服装折叠任务。2) 提出了一个自动解析动作和语言对齐指令的新数据集,解决了缺乏双臂折叠数据的难题。3) BiFold模型能够更好地理解文本指令的意图,并生成更精确的折叠动作。

关键设计:论文的关键设计包括:1) 使用Transformer架构作为视觉和语言编码器,以捕捉长距离依赖关系。2) 设计了一个基于模仿学习的奖励函数,鼓励模型生成与专家演示相似的动作。3) 数据集包含多种类型的服装和折叠指令,以提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BiFold在现有的语言条件折叠基准上实现了最先进的性能,并在新的双臂折叠数据集上获得了最佳性能。实验结果表明,BiFold能够有效地理解文本指令,并生成精确的折叠动作。此外,BiFold还展示了对新指令、服装和环境的强大泛化能力,证明了其在实际应用中的潜力。

🎯 应用场景

该研究成果可应用于自动化服装整理、智能家居、仓储物流等领域。例如,机器人可以根据用户的语音指令自动完成衣物折叠,提高生活效率。在仓储物流中,可以实现自动化服装分拣和打包,降低人工成本。未来,该技术有望应用于更广泛的机器人操作任务,实现人机协作的智能化。

📄 摘要(原文)

Cloth folding is a complex task due to the inevitable self-occlusions of clothes, their complicated dynamics, and the disparate materials, geometries, and textures that garments can have. In this work, we learn folding actions conditioned on text commands. Translating high-level, abstract instructions into precise robotic actions requires sophisticated language understanding and manipulation capabilities. To do that, we leverage a pre-trained vision-language model and repurpose it to predict manipulation actions. Our model, BiFold, can take context into account and achieves state-of-the-art performance on an existing language-conditioned folding benchmark. To address the lack of annotated bimanual folding data, we introduce a novel dataset with automatically parsed actions and language-aligned instructions, enabling better learning of text-conditioned manipulation. BiFold attains the best performance on our dataset and demonstrates strong generalization to new instructions, garments, and environments.