Learning to Design Soft Hands using Reward Models

📄 arXiv: 2510.17086v1 📥 PDF

作者: Xueqian Bai, Nicklas Hansen, Adabhav Singh, Michael T. Tolley, Yan Duan, Pieter Abbeel, Xiaolong Wang, Sha Yi

分类: cs.RO

发布日期: 2025-10-20


💡 一句话要点

提出基于奖励模型的交叉熵方法,高效优化柔性手爪设计。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 柔性机器人 手爪设计 奖励模型 交叉熵方法 协同设计

📋 核心要点

  1. 柔性手爪设计面临高维搜索空间和昂贵计算评估的挑战,难以在兼容性和功能性之间取得平衡。
  2. 提出基于奖励模型的交叉熵方法(CEM-RM),利用遥操作数据学习优化手爪设计分布,减少设计评估次数。
  3. 实验结果表明,优化后的手爪在仿真和真实环境中,对各种物体的抓取成功率显著优于基线手爪。

📝 摘要(中文)

柔性机械手有望提供与物体和环境的兼容且安全的交互。然而,设计在各种用例中既兼容又实用的柔性手爪仍然具有挑战性。硬件和控制的协同设计虽然能更好地将形态与行为结合起来,但由此产生的搜索空间是高维的,即使是基于仿真的评估也需要大量的计算。本文提出了一种基于奖励模型的交叉熵方法(CEM-RM)框架,该框架基于遥操作控制策略有效地优化了肌腱驱动的柔性机械手,与纯优化相比,设计评估减少了一半以上,同时从预先收集的遥操作数据中学习优化手爪设计的分布。我们推导了由弯曲柔性手指组成的柔性机械手的设计空间,并在仿真中实现了并行训练。然后,使用遥操作数据和实时遥操作,将优化后的手爪进行3D打印并在现实世界中部署。在仿真和硬件中的实验表明,我们优化后的设计在各种具有挑战性的物体上的抓取成功率明显优于基线手爪。

🔬 方法详解

问题定义:论文旨在解决柔性手爪设计中,如何在保证兼容性的前提下,提升其在多样化任务中的功能性。现有方法,如纯优化算法,面临着高维设计空间和昂贵的仿真评估成本,难以高效地搜索到最优设计。

核心思路:论文的核心思路是利用预先收集的遥操作数据学习一个奖励模型,该模型能够预测不同手爪设计的性能。然后,使用交叉熵方法(CEM)优化手爪设计,其中奖励模型作为评估函数,从而减少了对昂贵仿真评估的依赖。这种方法将数据驱动的学习与优化算法相结合,提高了设计效率。

技术框架:CEM-RM框架包含以下主要模块:1) 数据收集:通过遥操作收集手爪与各种物体的交互数据。2) 奖励模型训练:利用收集的数据训练一个奖励模型,该模型预测给定手爪设计和控制策略下的抓取成功率。3) 交叉熵优化:使用CEM算法优化手爪设计,其中奖励模型作为评估函数。CEM算法迭代地更新手爪设计分布,使其向奖励更高的区域移动。4) 硬件部署:将优化后的手爪进行3D打印,并在真实环境中进行测试。

关键创新:该论文的关键创新在于将奖励模型与交叉熵方法相结合,用于柔性手爪的协同设计。与传统的优化方法相比,CEM-RM能够利用预先收集的数据,学习一个代理模型来加速设计评估,从而显著减少了计算成本。此外,该方法能够学习手爪设计的分布,而不仅仅是单个最优设计,从而提高了设计的鲁棒性。

关键设计:论文中,手爪的设计空间包括手指的弯曲度、肌腱的连接位置等参数。奖励模型采用神经网络结构,输入为手爪设计参数和遥操作控制策略,输出为抓取成功率的预测值。CEM算法使用高斯分布来表示手爪设计分布,并迭代地更新高斯分布的均值和方差。损失函数采用均方误差损失,用于训练奖励模型。仿真环境使用MuJoCo物理引擎。

📊 实验亮点

实验结果表明,CEM-RM方法能够显著提高柔性手爪的抓取成功率。在仿真环境中,优化后的手爪在抓取各种具有挑战性的物体时,成功率比基线手爪提高了约20%。在真实环境中,优化后的手爪也表现出更高的抓取成功率和鲁棒性。此外,CEM-RM方法能够将设计评估次数减少一半以上,显著提高了设计效率。

🎯 应用场景

该研究成果可应用于机器人抓取、人机交互、医疗康复等领域。优化后的柔性手爪能够更好地适应不同形状和材质的物体,提高抓取的成功率和安全性。未来,该方法可以扩展到其他类型的柔性机器人设计,例如柔性腿部或柔性躯干,从而实现更复杂和灵活的机器人行为。

📄 摘要(原文)

Soft robotic hands promise to provide compliant and safe interaction with objects and environments. However, designing soft hands to be both compliant and functional across diverse use cases remains challenging. Although co-design of hardware and control better couples morphology to behavior, the resulting search space is high-dimensional, and even simulation-based evaluation is computationally expensive. In this paper, we propose a Cross-Entropy Method with Reward Model (CEM-RM) framework that efficiently optimizes tendon-driven soft robotic hands based on teleoperation control policy, reducing design evaluations by more than half compared to pure optimization while learning a distribution of optimized hand designs from pre-collected teleoperation data. We derive a design space for a soft robotic hand composed of flexural soft fingers and implement parallelized training in simulation. The optimized hands are then 3D-printed and deployed in the real world using both teleoperation data and real-time teleoperation. Experiments in both simulation and hardware demonstrate that our optimized design significantly outperforms baseline hands in grasping success rates across a diverse set of challenging objects.