FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction

作者: Mohammed Daba, Jing Qiu

分类: cs.RO, cs.AI

发布日期: 2025-08-07

备注: 7 pages, 3 figures, 1 table. Submitted to IEEE Robotics and Automation Letters

💡 一句话要点

FCBV-Net：基于特征条件双臂价值预测的类别级机器人服装平整

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 机器人服装操作 双臂协同 类别级泛化 3D点云 价值预测

📋 核心要点

现有机器人服装平整方法难以在类别层面泛化，主要瓶颈在于高维度、复杂动力学和类别内差异。
FCBV-Net通过预训练并冻结的几何特征来调节双臂动作价值预测，从而提升类别级策略的泛化能力。
实验表明，FCBV-Net在未见过的服装上表现出更强的泛化能力，覆盖率优于其他基线方法。

📝 摘要（中文）

机器人服装操作（如双臂平整）的类别级泛化仍然是一个重大挑战，原因在于高维度、复杂动力学和类别内变化。现有方法要么过度拟合特定实例的并发学习视觉特征，要么虽然具有类别级感知泛化能力，但无法预测协同双臂动作的价值。我们提出了特征条件双臂价值网络（FCBV-Net），它基于3D点云运行，专门用于增强服装平整的类别级策略泛化。FCBV-Net将双臂动作价值预测建立在预训练的、冻结的密集几何特征之上，确保对类别内服装变化的鲁棒性。然后，可训练的下游组件使用这些静态特征学习特定于任务的策略。在模拟的GarmentLab实验中使用CLOTH3D数据集，FCBV-Net展示了卓越的类别级泛化能力。与基于2D图像的基线相比，FCBV-Net在未见过的服装上的效率下降仅为11.5%（Steps80），而基线为96.2%，并且实现了89%的最终覆盖率，优于基于3D对应关系的基线的83%覆盖率，后者使用相同的逐点几何特征但使用固定的原语。这些结果表明，将几何理解与双臂动作价值学习解耦可以实现更好的类别级泛化。

🔬 方法详解

问题定义：论文旨在解决机器人服装平整任务中，现有方法在类别级别泛化能力不足的问题。现有方法要么过度拟合特定服装实例，要么无法有效预测双臂协同动作的价值，导致在新服装上的表现不佳。

核心思路：论文的核心思路是将几何理解与双臂动作价值学习解耦。通过预训练并冻结的几何特征来表征服装的形状，然后基于这些静态特征学习特定任务的策略。这种解耦使得模型能够更好地泛化到未见过的服装类别。

技术框架：FCBV-Net的整体框架包含以下几个主要模块：1) 3D点云输入；2) 预训练的几何特征提取器（冻结）；3) 特征条件双臂价值预测网络；4) 可训练的下游策略学习模块。该网络首先提取服装的几何特征，然后基于这些特征预测双臂动作的价值，最后通过策略学习模块优化平整策略。

关键创新：论文最重要的创新点在于将几何理解与动作价值学习解耦。通过使用预训练的、冻结的几何特征，FCBV-Net能够更好地捕捉服装的类别级信息，从而提高泛化能力。与现有方法相比，FCBV-Net避免了在训练过程中同时学习视觉特征和策略，从而减少了过拟合的风险。

关键设计：FCBV-Net的关键设计包括：1) 使用预训练的几何特征提取器，例如PointNet++；2) 设计特征条件双臂价值预测网络，该网络以几何特征作为输入，预测不同双臂动作的价值；3) 使用强化学习算法（例如Q-learning）训练下游策略学习模块，优化平整策略。具体的损失函数和网络结构细节在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

FCBV-Net在GarmentLab模拟环境中，使用CLOTH3D数据集进行了评估。实验结果表明，FCBV-Net在未见过的服装上的效率下降仅为11.5%（Steps80），远低于基于2D图像的基线（96.2%）。此外，FCBV-Net实现了89%的最终覆盖率，优于基于3D对应关系的基线（83%）。这些结果表明，FCBV-Net具有更强的类别级泛化能力。

🎯 应用场景

该研究成果可应用于服装制造、仓储物流、家政服务等领域。例如，在服装制造中，机器人可以自动平整衣物，提高生产效率。在家政服务中，机器人可以帮助人们整理衣物，减轻家务负担。未来，该技术有望进一步推广到其他柔性物体的操作任务中。

📄 摘要（原文）

Category-level generalization for robotic garment manipulation, such as bimanual smoothing, remains a significant hurdle due to high dimensionality, complex dynamics, and intra-category variations. Current approaches often struggle, either overfitting with concurrently learned visual features for a specific instance or, despite category-level perceptual generalization, failing to predict the value of synergistic bimanual actions. We propose the Feature-Conditioned Bimanual Value Network (FCBV-Net), operating on 3D point clouds to specifically enhance category-level policy generalization for garment smoothing. FCBV-Net conditions bimanual action value prediction on pre-trained, frozen dense geometric features, ensuring robustness to intra-category garment variations. Trainable downstream components then learn a task-specific policy using these static features. In simulated GarmentLab experiments with the CLOTH3D dataset, FCBV-Net demonstrated superior category-level generalization. It exhibited only an 11.5% efficiency drop (Steps80) on unseen garments compared to 96.2% for a 2D image-based baseline, and achieved 89% final coverage, outperforming an 83% coverage from a 3D correspondence-based baseline that uses identical per-point geometric features but a fixed primitive. These results highlight that the decoupling of geometric understanding from bimanual action value learning enables better category-level generalization.

FCBV-Net: Category-Level Robotic Garment Smoothing via Feature-Conditioned Bimanual Value Prediction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理