DexSim2Real$^{2}$: Building Explicit World Model for Precise Articulated Object Dexterous Manipulation
作者: Taoran Jiang, Yixuan Guan, Liqian Ma, Jing Xu, Jiaojiao Meng, Weihang Chen, Zecui Zeng, Lusong Li, Dan Wu, Rui Chen
分类: cs.RO
发布日期: 2024-09-13 (更新: 2025-07-13)
备注: Project Webpage: https://jiangtaoran.github.io/dexsim2real2web/ . arXiv admin note: text overlap with arXiv:2302.10693
💡 一句话要点
DexSim2Real$^{2}$:构建显式世界模型实现精确铰接物体灵巧操作
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 铰接物体操作 显式世界模型 模型预测控制 数字孪生 机器人灵巧手 3D AIGC 主动交互
📋 核心要点
- 现有铰接物体操作方法通常依赖大量演示或强化学习,泛化性差,难以适应新物体和目标。
- DexSim2Real$^{2}$通过主动交互构建铰接物体的显式世界模型,利用模型预测控制实现目标导向的操作。
- 实验表明,该框架在多种夹具和灵巧手上均有效,并能泛化到使用工具进行操作等高级任务。
📝 摘要(中文)
本文提出了一种名为DexSim2Real$^{2}$的框架,用于目标导向的铰接物体操作。该框架的核心是通过主动交互构建未见过的铰接物体的显式世界模型,从而能够使用基于采样的模型预测控制来规划轨迹,以实现不同的目标,而无需演示或强化学习。首先,使用在自监督交互数据或人类操作视频上训练的 affordance 网络来预测交互。在真实机器人上执行交互以移动物体部件后,我们提出了一种基于 3D AIGC 的建模流程,从多帧观测中构建物体在仿真中的数字孪生。对于灵巧手,我们利用特征抓取来降低动作维度,从而实现更高效的轨迹搜索。实验验证了该框架在使用吸盘夹具、双指夹具和两个灵巧手进行精确操作方面的有效性。显式世界模型的泛化能力还支持使用工具进行操作等高级操作策略。
🔬 方法详解
问题定义:铰接物体在日常生活中普遍存在,但机器人对其进行精确操作仍然具有挑战性。现有方法通常需要大量的演示数据或依赖强化学习,这限制了它们在新物体和新任务上的泛化能力。此外,构建精确的铰接物体模型也面临着观测噪声和复杂动力学建模的难题。
核心思路:本文的核心思路是通过主动交互来探索铰接物体的结构和运动特性,并利用这些信息构建一个显式的世界模型。该模型能够预测不同交互动作对物体状态的影响,从而允许机器人使用模型预测控制(MPC)来规划实现特定目标的操作轨迹。通过在仿真环境中构建物体的数字孪生,可以有效地利用仿真数据来训练和优化控制策略。
技术框架:DexSim2Real$^{2}$框架主要包含以下几个阶段:1) 交互预测:使用 affordance 网络预测与物体进行交互的最佳位置和方式。该网络在自监督数据或人类操作视频上进行训练。2) 交互执行:在真实机器人上执行预测的交互动作,并观察物体部件的运动。3) 世界模型构建:基于 3D AIGC 技术,从多帧观测中构建物体在仿真环境中的数字孪生。该模型能够模拟物体在不同交互下的运动。4) 轨迹规划:使用基于采样的 MPC 算法,在仿真环境中规划实现特定目标的操作轨迹。5) 轨迹执行:将规划的轨迹转移到真实机器人上执行。
关键创新:该论文的关键创新在于构建了一个显式的世界模型,该模型能够精确地预测铰接物体在不同交互下的运动。与传统的黑盒模型相比,显式模型具有更好的可解释性和泛化能力。此外,该论文还提出了一种基于 3D AIGC 的建模流程,能够从少量观测数据中构建高质量的数字孪生。
关键设计:在交互预测阶段,affordance 网络被训练来预测与物体进行交互的最佳位置和方向。在世界模型构建阶段,使用了基于 3D AIGC 的方法来生成物体的三维模型。在轨迹规划阶段,使用了基于采样的 MPC 算法,并利用特征抓取(eigengrasp)来降低灵巧手的动作维度,从而提高轨迹搜索的效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DexSim2Real$^{2}$框架在多种夹具和灵巧手上均能成功操作铰接物体,并能泛化到未见过的物体和目标。例如,该框架能够使用吸盘夹具、双指夹具和两个灵巧手完成铰接物体的开合操作。此外,该框架还能够利用工具进行操作,例如使用螺丝刀拧紧螺丝,展示了其强大的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要精确操作铰接物体的场景,例如:智能制造中对装配线的自动化改造,家庭服务机器人对家具的组装和维修,以及医疗机器人辅助医生进行手术操作。通过构建显式世界模型,机器人能够更好地理解和预测物体的行为,从而实现更安全、更高效的操作。
📄 摘要(原文)
Articulated objects are ubiquitous in daily life. In this paper, we present DexSim2Real$^{2}$, a novel framework for goal-conditioned articulated object manipulation. The core of our framework is constructing an explicit world model of unseen articulated objects through active interactions, which enables sampling-based model predictive control to plan trajectories achieving different goals without requiring demonstrations or RL. It first predicts an interaction using an affordance network trained on self-supervised interaction data or videos of human manipulation. After executing the interactions on the real robot to move the object parts, we propose a novel modeling pipeline based on 3D AIGC to build a digital twin of the object in simulation from multiple frames of observations. For dexterous hands, we utilize eigengrasp to reduce the action dimension, enabling more efficient trajectory searching. Experiments validate the framework's effectiveness for precise manipulation using a suction gripper, a two-finger gripper and two dexterous hand. The generalizability of the explicit world model also enables advanced manipulation strategies like manipulating with tools.