FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction
作者: Mohammed Daba, Jing Qiu
分类: cs.RO, cs.AI
发布日期: 2025-08-07
备注: 7 pages, 3 figures, 1 table. Submitted to IEEE Robotics and Automation Letters
💡 一句话要点
FCBV-Net:基于特征条件双臂价值预测的类别级机器人服装平整
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: 机器人服装操作 双臂协同 类别级泛化 3D点云 价值预测
📋 核心要点
- 现有机器人服装平整方法难以在类别层面泛化,主要瓶颈在于高维度、复杂动力学和类别内差异。
- FCBV-Net通过预训练并冻结的几何特征来调节双臂动作价值预测,从而提升类别级策略的泛化能力。
- 实验表明,FCBV-Net在未见过的服装上表现出更强的泛化能力,覆盖率优于其他基线方法。
📝 摘要(中文)
机器人服装操作(如双臂平整)的类别级泛化仍然是一个重大挑战,原因在于高维度、复杂动力学和类别内变化。现有方法要么过度拟合特定实例的并发学习视觉特征,要么虽然具有类别级感知泛化能力,但无法预测协同双臂动作的价值。我们提出了特征条件双臂价值网络(FCBV-Net),它基于3D点云运行,专门用于增强服装平整的类别级策略泛化。FCBV-Net将双臂动作价值预测建立在预训练的、冻结的密集几何特征之上,确保对类别内服装变化的鲁棒性。然后,可训练的下游组件使用这些静态特征学习特定于任务的策略。在模拟的GarmentLab实验中使用CLOTH3D数据集,FCBV-Net展示了卓越的类别级泛化能力。与基于2D图像的基线相比,FCBV-Net在未见过的服装上的效率下降仅为11.5%(Steps80),而基线为96.2%,并且实现了89%的最终覆盖率,优于基于3D对应关系的基线的83%覆盖率,后者使用相同的逐点几何特征但使用固定的原语。这些结果表明,将几何理解与双臂动作价值学习解耦可以实现更好的类别级泛化。
🔬 方法详解
问题定义:论文旨在解决机器人服装平整任务中,现有方法在类别级别泛化能力不足的问题。现有方法要么过度拟合特定服装实例,要么无法有效预测双臂协同动作的价值,导致在新服装上的表现不佳。
核心思路:论文的核心思路是将几何理解与双臂动作价值学习解耦。通过预训练并冻结的几何特征来表征服装的形状,然后基于这些静态特征学习特定任务的策略。这种解耦使得模型能够更好地泛化到未见过的服装类别。
技术框架:FCBV-Net的整体框架包含以下几个主要模块:1) 3D点云输入;2) 预训练的几何特征提取器(冻结);3) 特征条件双臂价值预测网络;4) 可训练的下游策略学习模块。该网络首先提取服装的几何特征,然后基于这些特征预测双臂动作的价值,最后通过策略学习模块优化平整策略。
关键创新:论文最重要的创新点在于将几何理解与动作价值学习解耦。通过使用预训练的、冻结的几何特征,FCBV-Net能够更好地捕捉服装的类别级信息,从而提高泛化能力。与现有方法相比,FCBV-Net避免了在训练过程中同时学习视觉特征和策略,从而减少了过拟合的风险。
关键设计:FCBV-Net的关键设计包括:1) 使用预训练的几何特征提取器,例如PointNet++;2) 设计特征条件双臂价值预测网络,该网络以几何特征作为输入,预测不同双臂动作的价值;3) 使用强化学习算法(例如Q-learning)训练下游策略学习模块,优化平整策略。具体的损失函数和网络结构细节在论文中进行了详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
FCBV-Net在GarmentLab模拟环境中,使用CLOTH3D数据集进行了评估。实验结果表明,FCBV-Net在未见过的服装上的效率下降仅为11.5%(Steps80),远低于基于2D图像的基线(96.2%)。此外,FCBV-Net实现了89%的最终覆盖率,优于基于3D对应关系的基线(83%)。这些结果表明,FCBV-Net具有更强的类别级泛化能力。
🎯 应用场景
该研究成果可应用于服装制造、仓储物流、家政服务等领域。例如,在服装制造中,机器人可以自动平整衣物,提高生产效率。在家政服务中,机器人可以帮助人们整理衣物,减轻家务负担。未来,该技术有望进一步推广到其他柔性物体的操作任务中。
📄 摘要(原文)
Category-level generalization for robotic garment manipulation, such as bimanual smoothing, remains a significant hurdle due to high dimensionality, complex dynamics, and intra-category variations. Current approaches often struggle, either overfitting with concurrently learned visual features for a specific instance or, despite category-level perceptual generalization, failing to predict the value of synergistic bimanual actions. We propose the Feature-Conditioned Bimanual Value Network (FCBV-Net), operating on 3D point clouds to specifically enhance category-level policy generalization for garment smoothing. FCBV-Net conditions bimanual action value prediction on pre-trained, frozen dense geometric features, ensuring robustness to intra-category garment variations. Trainable downstream components then learn a task-specific policy using these static features. In simulated GarmentLab experiments with the CLOTH3D dataset, FCBV-Net demonstrated superior category-level generalization. It exhibited only an 11.5% efficiency drop (Steps80) on unseen garments compared to 96.2% for a 2D image-based baseline, and achieved 89% final coverage, outperforming an 83% coverage from a 3D correspondence-based baseline that uses identical per-point geometric features but a fixed primitive. These results highlight that the decoupling of geometric understanding from bimanual action value learning enables better category-level generalization.