DyWA: Dynamics-adaptive World Action Model for Generalizable Non-prehensile Manipulation

📄 arXiv: 2503.16806v2 📥 PDF

作者: Jiangran Lyu, Ziming Li, Xuesong Shi, Chaoyi Xu, Yizhou Wang, He Wang

分类: cs.RO, cs.AI

发布日期: 2025-03-21 (更新: 2025-07-25)

备注: Project Page:https://pku-epic.github.io/DyWA/


💡 一句话要点

提出动力学自适应世界动作模型(DyWA),用于通用非抓取操作

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 非抓取操作 世界动作模型 动力学自适应 机器人操作 单视角点云

📋 核心要点

  1. 现有非抓取操作学习方法依赖多视角相机和精确姿态跟踪,泛化性差,难以适应物体质量和摩擦力变化。
  2. DyWA通过联合预测未来状态并基于历史轨迹适应动力学变化,增强动作学习,统一建模几何、状态、物理和机器人动作。
  3. 实验表明,DyWA在模拟环境中单视角点云观测下成功率提升31.5%,真实世界实验中平均成功率达68%,具有良好泛化性。

📝 摘要(中文)

非抓取操作对于处理在非结构化环境中无法抓取的薄、大或其他物体至关重要。传统的基于规划的方法难以处理复杂的接触建模,而基于学习的方法最近崭露头角。然而,现有的基于学习的方法面临两个主要限制:它们严重依赖多视角相机和精确的姿态跟踪,并且无法推广到不同的物理条件,例如物体质量和桌面摩擦的变化。为了解决这些挑战,我们提出了一种动力学自适应世界动作模型(DyWA),这是一种新颖的框架,通过联合预测未来状态,同时基于历史轨迹适应动力学变化来增强动作学习。通过统一几何、状态、物理和机器人动作的建模,DyWA能够在部分可观察性下实现更鲁棒的策略学习。与基线方法相比,我们的方法仅使用模拟中的单视角点云观测,就将成功率提高了31.5%。此外,DyWA在真实世界实验中实现了68%的平均成功率,证明了其在不同物体几何形状、适应不同桌面摩擦以及在半满水瓶和光滑表面等具有挑战性的场景中的泛化能力和鲁棒性。

🔬 方法详解

问题定义:现有基于学习的非抓取操作方法,过度依赖多视角相机和精确的姿态跟踪,并且难以泛化到不同的物理条件,例如物体质量和桌面摩擦的变化。这限制了它们在真实世界复杂环境中的应用。

核心思路:DyWA的核心思路是通过建立一个能够适应动力学变化的世界动作模型,来提高非抓取操作的泛化能力和鲁棒性。该模型通过历史轨迹学习动力学变化,并将其融入到未来状态的预测中,从而实现对不同物理条件下的操作进行有效规划。

技术框架:DyWA框架包含以下主要模块:1) 状态编码器:将输入的点云数据编码成状态向量。2) 动力学自适应模块:基于历史状态轨迹,预测动力学参数的变化。3) 世界动作模型:结合当前状态和动力学参数,预测执行动作后的未来状态。4) 策略学习模块:基于世界动作模型的预测结果,学习最优的动作策略。

关键创新:DyWA的关键创新在于动力学自适应模块,它能够根据历史轨迹动态调整世界动作模型的参数,从而适应不同的物理条件。这使得DyWA能够更好地泛化到未知的环境和物体属性,而无需进行大量的重新训练。

关键设计:动力学自适应模块使用循环神经网络(RNN)来建模历史状态轨迹,并预测动力学参数的变化。世界动作模型使用神经网络来学习状态、动作和未来状态之间的映射关系。损失函数包括状态预测误差和策略学习的奖励函数。具体网络结构和参数设置未知,需要参考论文补充材料。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DyWA在模拟环境中,仅使用单视角点云观测,成功率相比基线方法提升了31.5%。在真实世界实验中,DyWA实现了68%的平均成功率,证明了其在不同物体几何形状、适应不同桌面摩擦以及在半满水瓶和光滑表面等具有挑战性的场景中的泛化能力和鲁棒性。这些结果表明DyWA在非抓取操作任务中具有显著优势。

🎯 应用场景

DyWA可应用于机器人自动化、智能制造、物流分拣等领域,尤其适用于处理形状不规则、易碎或无法直接抓取的物体。该研究有助于提升机器人在复杂和非结构化环境中执行操作任务的能力,降低对环境感知和控制精度的要求,具有重要的实际应用价值和广阔的应用前景。

📄 摘要(原文)

Nonprehensile manipulation is crucial for handling objects that are too thin, large, or otherwise ungraspable in unstructured environments. While conventional planning-based approaches struggle with complex contact modeling, learning-based methods have recently emerged as a promising alternative. However, existing learning-based approaches face two major limitations: they heavily rely on multi-view cameras and precise pose tracking, and they fail to generalize across varying physical conditions, such as changes in object mass and table friction. To address these challenges, we propose the Dynamics-Adaptive World Action Model (DyWA), a novel framework that enhances action learning by jointly predicting future states while adapting to dynamics variations based on historical trajectories. By unifying the modeling of geometry, state, physics, and robot actions, DyWA enables more robust policy learning under partial observability. Compared to baselines, our method improves the success rate by 31.5% using only single-view point cloud observations in the simulation. Furthermore, DyWA achieves an average success rate of 68% in real-world experiments, demonstrating its ability to generalize across diverse object geometries, adapt to varying table friction, and robustness in challenging scenarios such as half-filled water bottles and slippery surfaces.