Vision-Language-Action Model and Diffusion Policy Switching Enables Dexterous Control of an Anthropomorphic Hand

📄 arXiv: 2410.14022v1 📥 PDF

作者: Cheng Pan, Kai Junge, Josie Hughes

分类: cs.RO, cs.AI

发布日期: 2024-10-17


💡 一句话要点

提出VLA模型与扩散模型切换控制方法,实现拟人手灵巧操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 灵巧操作 视觉-语言-动作模型 扩散模型 机器人控制 模型切换

📋 核心要点

  1. 现有方法在灵巧操作中泛化性与精确性难以兼顾,VLA模型泛化性强但精度不足。
  2. 提出VLA模型与扩散模型混合控制,VLA负责高层规划,扩散模型处理底层交互,提升精度与鲁棒性。
  3. 在ADAPT Hand 2上进行抓取放置实验,模型切换方法成功率超过80%,显著优于仅用VLA模型。

📝 摘要(中文)

为了提升自主灵巧操作能力,本文提出了一种混合控制方法,结合了微调的视觉-语言-动作(VLA)模型和扩散模型的相对优势。VLA模型提供语言指令驱动的高层规划,具有高度的泛化能力,而扩散模型处理底层交互,为特定对象和环境提供所需的精度和鲁棒性。通过将切换信号整合到训练数据中,我们实现了这两个模型之间基于事件的转换,用于抓取放置任务,其中目标对象和放置位置通过语言指令指定。该方法部署在我们的拟人ADAPT Hand 2(一个13自由度的机器人手)上,该手通过串联弹性驱动实现顺应性,从而增强了交互的弹性。这是首次使用VLA模型控制多指手。实验表明,与仅使用VLA模型(成功率低于40%)相比,这种模型切换方法实现了超过80%的成功率,这得益于VLA模型精确的近物手臂运动以及扩散模型的多模态抓取运动和误差恢复能力。

🔬 方法详解

问题定义:论文旨在解决机器人灵巧操作中,如何结合高层语义理解和底层精确控制的问题。现有方法,如仅使用视觉-语言-动作模型(VLA),虽然具有较强的泛化能力,但在处理精细的交互任务时,精度和鲁棒性不足,容易出现操作失败。

核心思路:论文的核心思路是将VLA模型和扩散模型结合起来,利用VLA模型进行高层语义理解和任务规划,生成粗略的动作指令;然后,利用扩散模型进行底层精细的动作控制,实现精确的操作。通过在训练数据中引入切换信号,实现两个模型之间的平滑切换,从而充分发挥各自的优势。

技术框架:整体框架包含两个主要模块:VLA模型和扩散模型。VLA模型接收语言指令作为输入,输出手臂的运动轨迹,将手移动到目标物体附近。扩散模型接收VLA模型的输出以及环境信息作为输入,生成精细的抓取动作。在训练过程中,通过切换信号来控制使用哪个模型进行训练。在推理过程中,根据当前状态动态地切换使用VLA模型或扩散模型。

关键创新:最重要的创新点在于提出了VLA模型和扩散模型之间的切换机制。这种切换机制允许系统根据任务的需求动态地选择合适的控制策略,从而在泛化性和精确性之间取得平衡。此外,首次将VLA模型应用于多指机器人的控制,并验证了其有效性。

关键设计:论文的关键设计包括:1) 精心设计的切换信号,用于控制VLA模型和扩散模型之间的切换;2) 针对ADAPT Hand 2的定制化训练数据,包括VLA模型的训练数据和扩散模型的训练数据;3) 损失函数的设计,用于优化VLA模型和扩散模型的性能。具体参数设置和网络结构等细节在论文中未详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的模型切换方法在抓取放置任务中取得了显著的性能提升。与仅使用VLA模型相比,成功率从低于40%提高到超过80%。这表明该方法能够有效地结合VLA模型的泛化能力和扩散模型的精确控制能力,从而实现更鲁棒、更可靠的灵巧操作。

🎯 应用场景

该研究成果可应用于各种需要灵巧操作的机器人任务中,例如:智能制造中的零件装配、医疗手术中的精细操作、家庭服务机器人中的物品整理等。通过结合高层语义理解和底层精确控制,可以使机器人更好地适应复杂多变的环境,完成更加复杂的任务,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

To advance autonomous dexterous manipulation, we propose a hybrid control method that combines the relative advantages of a fine-tuned Vision-Language-Action (VLA) model and diffusion models. The VLA model provides language commanded high-level planning, which is highly generalizable, while the diffusion model handles low-level interactions which offers the precision and robustness required for specific objects and environments. By incorporating a switching signal into the training-data, we enable event based transitions between these two models for a pick-and-place task where the target object and placement location is commanded through language. This approach is deployed on our anthropomorphic ADAPT Hand 2, a 13DoF robotic hand, which incorporates compliance through series elastic actuation allowing for resilience for any interactions: showing the first use of a multi-fingered hand controlled with a VLA model. We demonstrate this model switching approach results in a over 80\% success rate compared to under 40\% when only using a VLA model, enabled by accurate near-object arm motion by the VLA model and a multi-modal grasping motion with error recovery abilities from the diffusion model.