Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance

作者: Neha Sunil, Megha Tippur, Arnau Saumell, Edward Adelson, Alberto Rodriguez

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-09-04

备注: Accepted at CoRL 2025. Project website: https://mhtippur.github.io/inairclothmanipulation/

💡 一句话要点

提出基于置信度感知稠密对应和触觉反馈的空中服装操作方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 服装操作 机器人 视觉触觉 稠密对应 抓取可供性 置信度感知 反应式控制

📋 核心要点

服装操作面临复杂形变、材料差异和自遮挡等挑战，现有方法依赖于简化假设或预先可见的关键特征。
该论文提出一种双臂视觉触觉框架，利用置信度感知的稠密对应和触觉监督的可供性抓取来操作服装。
实验表明，该系统能够处理高度遮挡的服装，并在折叠和悬挂任务中表现出良好的性能，并具备从人类演示中学习的能力。

📝 摘要（中文）

服装操作因其复杂的形态、多变的材料动力学和频繁的自遮挡而极具挑战性。现有系统通常将服装展平或假设关键特征可见。本文提出了一种双臂视觉触觉框架，该框架结合了置信度感知的稠密视觉对应和触觉监督的抓取可供性，可以直接操作褶皱和悬挂的服装。对应模型在一个定制的高保真模拟数据集上进行训练，使用分布损失来捕获服装的对称性并生成对应置信度估计。这些估计指导一个反应式状态机，该状态机根据感知不确定性调整折叠策略。同时，一个视觉触觉抓取可供性网络，使用高分辨率触觉反馈进行自监督，确定哪些区域是物理上可抓取的。相同的触觉分类器在执行期间用于实时抓取验证。通过在低置信度状态下推迟动作，该系统可以处理高度遮挡的桌面和空中配置。我们在折叠和悬挂任务中展示了我们的任务无关的抓取选择模块。此外，我们的稠密描述符为其他规划方式提供了一个可重用的中间表示，例如从人类视频演示中提取抓取目标，为更通用和可扩展的服装操作铺平了道路。

🔬 方法详解

问题定义：服装操作任务因服装的复杂形态、材料的动态变化以及频繁的自遮挡而极具挑战。现有方法通常需要将服装展平，或者假设关键特征是可见的，这限制了它们在真实场景中的应用。该论文旨在解决在复杂、非平整状态下，对服装进行可靠操作的问题。

核心思路：该论文的核心思路是结合视觉和触觉信息，利用置信度感知的稠密对应来理解服装的形状和状态，并利用触觉反馈来指导抓取。通过这种方式，系统可以处理遮挡和不确定性，并选择合适的抓取点。核心在于利用置信度来指导决策，在不确定性高时推迟动作，从而提高鲁棒性。

技术框架：该系统采用双臂机器人平台，包含以下主要模块：1) 稠密对应模型：用于估计服装不同部分之间的对应关系，并输出置信度估计。2) 抓取可供性网络：用于预测服装上哪些区域是可抓取的，并使用触觉反馈进行自监督学习。3) 反应式状态机：根据稠密对应模型的置信度，动态调整折叠策略。4) 触觉验证模块：在抓取执行过程中，使用触觉传感器验证抓取的可靠性。

关键创新：该论文的关键创新在于：1) 提出了置信度感知的稠密对应方法，能够处理服装的对称性和遮挡问题。2) 结合视觉和触觉信息，实现了鲁棒的抓取选择和验证。3) 设计了反应式状态机，能够根据感知不确定性动态调整操作策略。4) 提出了一个任务无关的抓取选择模块，可以应用于不同的服装操作任务。

关键设计：稠密对应模型使用分布损失函数进行训练，以捕获服装的对称性并生成置信度估计。抓取可供性网络使用高分辨率触觉反馈进行自监督学习，损失函数的设计旨在最大化抓取的成功率。反应式状态机根据置信度阈值来决定是否执行动作，或者切换到不同的操作策略。

📊 实验亮点

该论文通过实验验证了所提出方法的有效性。在折叠和悬挂任务中，该系统能够成功处理高度遮挡的服装。此外，该系统还能够从人类视频演示中提取抓取目标，表明其具有良好的泛化能力。实验结果表明，该方法在服装操作任务中具有显著的优势。

🎯 应用场景

该研究成果可应用于服装制造、仓储物流、家庭服务等领域。例如，在服装制造中，机器人可以自动完成服装的折叠、整理和包装。在仓储物流中，机器人可以高效地处理服装的拣选和分拣。在家庭服务中，机器人可以帮助人们整理衣物，提高生活质量。该研究为实现更智能、更灵活的服装操作提供了新的思路和方法。

📄 摘要（原文）

Manipulating clothing is challenging due to complex configurations, variable material dynamics, and frequent self-occlusion. Prior systems often flatten garments or assume visibility of key features. We present a dual-arm visuotactile framework that combines confidence-aware dense visual correspondence and tactile-supervised grasp affordance to operate directly on crumpled and suspended garments. The correspondence model is trained on a custom, high-fidelity simulated dataset using a distributional loss that captures cloth symmetries and generates correspondence confidence estimates. These estimates guide a reactive state machine that adapts folding strategies based on perceptual uncertainty. In parallel, a visuotactile grasp affordance network, self-supervised using high-resolution tactile feedback, determines which regions are physically graspable. The same tactile classifier is used during execution for real-time grasp validation. By deferring action in low-confidence states, the system handles highly occluded table-top and in-air configurations. We demonstrate our task-agnostic grasp selection module in folding and hanging tasks. Moreover, our dense descriptors provide a reusable intermediate representation for other planning modalities, such as extracting grasp targets from human video demonstrations, paving the way for more generalizable and scalable garment manipulation.

Reactive In-Air Clothing Manipulation with Confidence-Aware Dense Correspondence and Visuotactile Affordance

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册