DyDexHandover: Human-like Bimanual Dynamic Dexterous Handover using RGB-only Perception
作者: Haoran Zhou, Yangwei You, Shuaijun Wang
分类: cs.RO
发布日期: 2025-09-22 (更新: 2025-09-25)
备注: 8 pages, 7 figures
💡 一句话要点
DyDexHandover:提出一种基于RGB感知的类人双臂动态灵巧物体传递方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 双臂机器人 动态物体传递 强化学习 RGB感知 人类策略正则化
📋 核心要点
- 现有双臂机器人空中物体传递方法依赖动力学模型或深度信息,泛化性和动作自然度受限。
- DyDexHandover利用多智能体强化学习,训练基于RGB图像的端到端策略,实现双臂动态物体传递。
- 引入人类策略正则化,引导机器人学习更流畅自然的动作,提升策略在未知物体上的泛化能力。
📝 摘要(中文)
动态空中物体传递是双臂机器人的一项基础挑战,它需要精确的感知、协调和自然的运动。以往的方法通常依赖于动力学模型、强先验或深度感知,限制了泛化性和自然性。我们提出了DyDexHandover,一个新颖的框架,它采用多智能体强化学习来训练一个端到端的基于RGB策略,用于双臂物体投掷和接取。为了实现更像人类的行为,投掷策略由人类策略正则化方案引导,鼓励流畅和自然的运动,并增强策略的泛化能力。在Isaac Sim中构建了一个双臂仿真环境用于实验评估。DyDexHandover在训练对象上实现了近99%的成功率,在未见过的对象上实现了75%的成功率,同时生成了类似人类的投掷和接取行为。据我们所知,这是第一个仅使用原始RGB感知实现双臂空中传递的方法。
🔬 方法详解
问题定义:现有双臂机器人空中物体传递方法通常依赖于精确的动力学模型、强先验知识或深度传感器获取环境信息。这些方法在实际应用中存在局限性,例如动力学模型难以精确建立,强先验限制了策略的灵活性,而深度传感器对环境光照和物体材质敏感,导致泛化能力较差。因此,如何仅使用RGB图像实现鲁棒、自然的双臂动态物体传递是一个关键问题。
核心思路:DyDexHandover的核心思路是利用多智能体强化学习,直接从RGB图像中学习双臂的控制策略。通过端到端的训练方式,避免了对动力学模型的依赖,提高了策略的鲁棒性。为了使机器人的动作更接近人类,引入了人类策略正则化,引导机器人学习更自然的运动轨迹。
技术框架:DyDexHandover的整体框架包含两个智能体:投掷臂智能体和接取臂智能体。这两个智能体通过多智能体强化学习进行联合训练。输入是RGB图像,输出是双臂的关节控制指令。训练过程在一个基于Isaac Sim的仿真环境中进行。为了提高策略的泛化能力,使用了大量的物体和环境变化进行训练。
关键创新:DyDexHandover的关键创新在于以下几点:1) 首次实现了仅使用RGB图像的双臂动态物体传递;2) 引入了人类策略正则化,使机器人的动作更自然;3) 采用多智能体强化学习,实现了双臂的协同控制。与现有方法相比,DyDexHandover不需要深度传感器或精确的动力学模型,具有更强的鲁棒性和泛化能力。
关键设计:人类策略正则化通过最小化机器人策略与人类策略之间的KL散度来实现。人类策略可以通过运动捕捉系统获取。损失函数包括强化学习奖励、人类策略正则化项和动作平滑项。网络结构采用卷积神经网络提取图像特征,然后使用循环神经网络进行时序建模。具体参数设置未知。
📊 实验亮点
DyDexHandover在仿真环境中取得了显著的成果。在训练对象上,成功率达到了近99%。即使在未见过的对象上,成功率也达到了75%。这表明该方法具有良好的泛化能力。此外,通过人类策略正则化,机器人的动作更加流畅自然,更接近人类的运动方式。这些结果表明DyDexHandover在双臂动态物体传递方面具有很大的潜力。
🎯 应用场景
DyDexHandover技术可应用于自动化装配、物流分拣、医疗辅助等领域。例如,在自动化装配中,双臂机器人可以利用该技术实现零件的快速、精确传递,提高生产效率。在医疗辅助领域,机器人可以协助医生进行手术器械的传递,减轻医生的负担。该技术有望推动机器人更加智能、灵活地服务于人类。
📄 摘要(原文)
Dynamic in air handover is a fundamental challenge for dual-arm robots, requiring accurate perception, precise coordination, and natural motion. Prior methods often rely on dynamics models, strong priors, or depth sensing, limiting generalization and naturalness. We present DyDexHandover, a novel framework that employs multi-agent reinforcement learning to train an end to end RGB based policy for bimanual object throwing and catching. To achieve more human-like behavior, the throwing policy is guided by a human policy regularization scheme, encouraging fluid and natural motion, and enhancing the generalization capability of the policy. A dual arm simulation environment was built in Isaac Sim for experimental evaluation. DyDexHandover achieves nearly 99 percent success on training objects and 75 percent on unseen objects, while generating human-like throwing and catching behaviors. To our knowledge, it is the first method to realize dual-arm in-air handover using only raw RGB perception.