DyDexHandover: Human-like Bimanual Dynamic Dexterous Handover using RGB-only Perception

作者: Haoran Zhou, Yangwei You, Shuaijun Wang

分类: cs.RO

发布日期: 2025-09-22 (更新: 2025-09-25)

备注: 8 pages, 7 figures

💡 一句话要点

DyDexHandover：提出一种基于RGB感知的类人双臂动态灵巧物体传递方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 双臂机器人 动态物体传递 强化学习 RGB感知 人类策略正则化

📋 核心要点

现有双臂机器人空中物体传递方法依赖动力学模型或深度信息，泛化性和动作自然度受限。
DyDexHandover利用多智能体强化学习，训练基于RGB图像的端到端策略，实现双臂动态物体传递。
引入人类策略正则化，引导机器人学习更流畅自然的动作，提升策略在未知物体上的泛化能力。

📝 摘要（中文）

动态空中物体传递是双臂机器人的一项基础挑战，它需要精确的感知、协调和自然的运动。以往的方法通常依赖于动力学模型、强先验或深度感知，限制了泛化性和自然性。我们提出了DyDexHandover，一个新颖的框架，它采用多智能体强化学习来训练一个端到端的基于RGB策略，用于双臂物体投掷和接取。为了实现更像人类的行为，投掷策略由人类策略正则化方案引导，鼓励流畅和自然的运动，并增强策略的泛化能力。在Isaac Sim中构建了一个双臂仿真环境用于实验评估。DyDexHandover在训练对象上实现了近99%的成功率，在未见过的对象上实现了75%的成功率，同时生成了类似人类的投掷和接取行为。据我们所知，这是第一个仅使用原始RGB感知实现双臂空中传递的方法。

🔬 方法详解

问题定义：现有双臂机器人空中物体传递方法通常依赖于精确的动力学模型、强先验知识或深度传感器获取环境信息。这些方法在实际应用中存在局限性，例如动力学模型难以精确建立，强先验限制了策略的灵活性，而深度传感器对环境光照和物体材质敏感，导致泛化能力较差。因此，如何仅使用RGB图像实现鲁棒、自然的双臂动态物体传递是一个关键问题。

核心思路：DyDexHandover的核心思路是利用多智能体强化学习，直接从RGB图像中学习双臂的控制策略。通过端到端的训练方式，避免了对动力学模型的依赖，提高了策略的鲁棒性。为了使机器人的动作更接近人类，引入了人类策略正则化，引导机器人学习更自然的运动轨迹。

技术框架：DyDexHandover的整体框架包含两个智能体：投掷臂智能体和接取臂智能体。这两个智能体通过多智能体强化学习进行联合训练。输入是RGB图像，输出是双臂的关节控制指令。训练过程在一个基于Isaac Sim的仿真环境中进行。为了提高策略的泛化能力，使用了大量的物体和环境变化进行训练。

关键创新：DyDexHandover的关键创新在于以下几点：1) 首次实现了仅使用RGB图像的双臂动态物体传递；2) 引入了人类策略正则化，使机器人的动作更自然；3) 采用多智能体强化学习，实现了双臂的协同控制。与现有方法相比，DyDexHandover不需要深度传感器或精确的动力学模型，具有更强的鲁棒性和泛化能力。

关键设计：人类策略正则化通过最小化机器人策略与人类策略之间的KL散度来实现。人类策略可以通过运动捕捉系统获取。损失函数包括强化学习奖励、人类策略正则化项和动作平滑项。网络结构采用卷积神经网络提取图像特征，然后使用循环神经网络进行时序建模。具体参数设置未知。

📊 实验亮点

DyDexHandover在仿真环境中取得了显著的成果。在训练对象上，成功率达到了近99%。即使在未见过的对象上，成功率也达到了75%。这表明该方法具有良好的泛化能力。此外，通过人类策略正则化，机器人的动作更加流畅自然，更接近人类的运动方式。这些结果表明DyDexHandover在双臂动态物体传递方面具有很大的潜力。

🎯 应用场景

DyDexHandover技术可应用于自动化装配、物流分拣、医疗辅助等领域。例如，在自动化装配中，双臂机器人可以利用该技术实现零件的快速、精确传递，提高生产效率。在医疗辅助领域，机器人可以协助医生进行手术器械的传递，减轻医生的负担。该技术有望推动机器人更加智能、灵活地服务于人类。

📄 摘要（原文）

Dynamic in air handover is a fundamental challenge for dual-arm robots, requiring accurate perception, precise coordination, and natural motion. Prior methods often rely on dynamics models, strong priors, or depth sensing, limiting generalization and naturalness. We present DyDexHandover, a novel framework that employs multi-agent reinforcement learning to train an end to end RGB based policy for bimanual object throwing and catching. To achieve more human-like behavior, the throwing policy is guided by a human policy regularization scheme, encouraging fluid and natural motion, and enhancing the generalization capability of the policy. A dual arm simulation environment was built in Isaac Sim for experimental evaluation. DyDexHandover achieves nearly 99 percent success on training objects and 75 percent on unseen objects, while generating human-like throwing and catching behaviors. To our knowledge, it is the first method to realize dual-arm in-air handover using only raw RGB perception.

DyDexHandover: Human-like Bimanual Dynamic Dexterous Handover using RGB-only Perception

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册