Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance

📄 arXiv: 2509.03889v1 📥 PDF

作者: Neha Sunil, Megha Tippur, Arnau Saumell, Edward Adelson, Alberto Rodriguez

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-09-04

备注: Accepted at CoRL 2025. Project website: https://mhtippur.github.io/inairclothmanipulation/


💡 一句话要点

提出基于置信度感知稠密对应和触觉反馈的空中服装操作方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 服装操作 机器人 视觉触觉 稠密对应 抓取可供性 置信度感知 反应式控制

📋 核心要点

  1. 服装操作面临复杂形变、材料差异和自遮挡等挑战,现有方法依赖于简化假设或预先可见的关键特征。
  2. 该论文提出一种双臂视觉触觉框架,利用置信度感知的稠密对应和触觉监督的可供性抓取来操作服装。
  3. 实验表明,该系统能够处理高度遮挡的服装,并在折叠和悬挂任务中表现出良好的性能,并具备从人类演示中学习的能力。

📝 摘要(中文)

服装操作因其复杂的形态、多变的材料动力学和频繁的自遮挡而极具挑战性。现有系统通常将服装展平或假设关键特征可见。本文提出了一种双臂视觉触觉框架,该框架结合了置信度感知的稠密视觉对应和触觉监督的抓取可供性,可以直接操作褶皱和悬挂的服装。对应模型在一个定制的高保真模拟数据集上进行训练,使用分布损失来捕获服装的对称性并生成对应置信度估计。这些估计指导一个反应式状态机,该状态机根据感知不确定性调整折叠策略。同时,一个视觉触觉抓取可供性网络,使用高分辨率触觉反馈进行自监督,确定哪些区域是物理上可抓取的。相同的触觉分类器在执行期间用于实时抓取验证。通过在低置信度状态下推迟动作,该系统可以处理高度遮挡的桌面和空中配置。我们在折叠和悬挂任务中展示了我们的任务无关的抓取选择模块。此外,我们的稠密描述符为其他规划方式提供了一个可重用的中间表示,例如从人类视频演示中提取抓取目标,为更通用和可扩展的服装操作铺平了道路。

🔬 方法详解

问题定义:服装操作任务因服装的复杂形态、材料的动态变化以及频繁的自遮挡而极具挑战。现有方法通常需要将服装展平,或者假设关键特征是可见的,这限制了它们在真实场景中的应用。该论文旨在解决在复杂、非平整状态下,对服装进行可靠操作的问题。

核心思路:该论文的核心思路是结合视觉和触觉信息,利用置信度感知的稠密对应来理解服装的形状和状态,并利用触觉反馈来指导抓取。通过这种方式,系统可以处理遮挡和不确定性,并选择合适的抓取点。核心在于利用置信度来指导决策,在不确定性高时推迟动作,从而提高鲁棒性。

技术框架:该系统采用双臂机器人平台,包含以下主要模块:1) 稠密对应模型:用于估计服装不同部分之间的对应关系,并输出置信度估计。2) 抓取可供性网络:用于预测服装上哪些区域是可抓取的,并使用触觉反馈进行自监督学习。3) 反应式状态机:根据稠密对应模型的置信度,动态调整折叠策略。4) 触觉验证模块:在抓取执行过程中,使用触觉传感器验证抓取的可靠性。

关键创新:该论文的关键创新在于:1) 提出了置信度感知的稠密对应方法,能够处理服装的对称性和遮挡问题。2) 结合视觉和触觉信息,实现了鲁棒的抓取选择和验证。3) 设计了反应式状态机,能够根据感知不确定性动态调整操作策略。4) 提出了一个任务无关的抓取选择模块,可以应用于不同的服装操作任务。

关键设计:稠密对应模型使用分布损失函数进行训练,以捕获服装的对称性并生成置信度估计。抓取可供性网络使用高分辨率触觉反馈进行自监督学习,损失函数的设计旨在最大化抓取的成功率。反应式状态机根据置信度阈值来决定是否执行动作,或者切换到不同的操作策略。

📊 实验亮点

该论文通过实验验证了所提出方法的有效性。在折叠和悬挂任务中,该系统能够成功处理高度遮挡的服装。此外,该系统还能够从人类视频演示中提取抓取目标,表明其具有良好的泛化能力。实验结果表明,该方法在服装操作任务中具有显著的优势。

🎯 应用场景

该研究成果可应用于服装制造、仓储物流、家庭服务等领域。例如,在服装制造中,机器人可以自动完成服装的折叠、整理和包装。在仓储物流中,机器人可以高效地处理服装的拣选和分拣。在家庭服务中,机器人可以帮助人们整理衣物,提高生活质量。该研究为实现更智能、更灵活的服装操作提供了新的思路和方法。

📄 摘要(原文)

Manipulating clothing is challenging due to complex configurations, variable material dynamics, and frequent self-occlusion. Prior systems often flatten garments or assume visibility of key features. We present a dual-arm visuotactile framework that combines confidence-aware dense visual correspondence and tactile-supervised grasp affordance to operate directly on crumpled and suspended garments. The correspondence model is trained on a custom, high-fidelity simulated dataset using a distributional loss that captures cloth symmetries and generates correspondence confidence estimates. These estimates guide a reactive state machine that adapts folding strategies based on perceptual uncertainty. In parallel, a visuotactile grasp affordance network, self-supervised using high-resolution tactile feedback, determines which regions are physically graspable. The same tactile classifier is used during execution for real-time grasp validation. By deferring action in low-confidence states, the system handles highly occluded table-top and in-air configurations. We demonstrate our task-agnostic grasp selection module in folding and hanging tasks. Moreover, our dense descriptors provide a reusable intermediate representation for other planning modalities, such as extracting grasp targets from human video demonstrations, paving the way for more generalizable and scalable garment manipulation.