PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation

作者: Wenxuan Li, Hang Zhao, Zhiyuan Yu, Yu Du, Qin Zou, Ruizhen Hu, Kai Xu

分类: cs.LG, cs.RO

发布日期: 2025-04-23 (更新: 2025-05-03)

备注: Robotics: Science and Systems 2025

💡 一句话要点

提出PIN-WM，用于学习非抓取操作的物理信息世界模型，实现Sim2Real迁移。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 非抓取操作 世界模型 物理信息 可微物理模拟 Sim2Real 强化学习 机器人学习

📋 核心要点

非抓取操作对物理交互高度敏感，传统方法难以实现鲁棒的策略学习和泛化。
PIN-WM通过可微物理模拟和高斯溅射，从少量交互轨迹中学习3D刚体动力学世界模型。
通过物理感知的数字孪生体，PIN-WM显著提升了Sim2Real迁移的鲁棒性，超越现有方法。

📝 摘要（中文）

非抓取操作（例如，受控的推/戳）是一项基础的机器人技能，但由于其对涉及摩擦和恢复等复杂物理交互的高度敏感性，使得学习仍然具有挑战性。为了实现鲁棒的策略学习和泛化，我们选择学习非抓取操作中涉及的3D刚体动力学的世界模型，并将其用于基于模型的强化学习。我们提出了PIN-WM，一个物理信息世界模型，能够从视觉观察中高效地端到端识别3D刚体动力学系统。通过采用可微物理模拟，PIN-WM仅需少量且与任务无关的物理交互轨迹即可学习。此外，PIN-WM通过高斯溅射产生的观测损失进行学习，而无需状态估计。为了弥合Sim2Real差距，我们将学习到的PIN-WM转化为一组数字孪生体，通过物理感知的随机化来扰动物理和渲染参数，从而生成PIN-WM的各种有意义的变体。在仿真和真实世界测试中进行的大量评估表明，PIN-WM通过物理感知的数字孪生体增强，有助于学习具有Sim2Real迁移的鲁棒非抓取操作技能，超越了Real2Sim2Real的最先进水平。

🔬 方法详解

问题定义：论文旨在解决非抓取操作中机器人学习的挑战，特别是由于复杂物理交互（如摩擦和恢复）导致的策略学习鲁棒性和泛化性问题。现有方法通常难以处理这种复杂性，或者需要大量的真实世界数据，限制了其应用。

核心思路：论文的核心思路是学习一个物理信息世界模型（PIN-WM），该模型能够准确预测非抓取操作中涉及的3D刚体动力学。通过可微物理模拟，模型可以从少量数据中学习，并且可以通过物理感知的随机化来适应真实世界的复杂性。

技术框架：PIN-WM的学习框架主要包括以下几个模块：1) 使用可微物理引擎进行物理模拟；2) 使用高斯溅射进行渲染，并计算观测损失；3) 通过物理感知的随机化生成数字孪生体。整个框架通过端到端的方式进行训练，无需状态估计。

关键创新：PIN-WM的关键创新在于：1) 将物理信息融入到世界模型中，提高了模型的预测精度和泛化能力；2) 使用可微物理模拟和高斯溅射，实现了高效的端到端学习；3) 引入物理感知的数字孪生体，有效弥合了Sim2Real的差距。

关键设计：PIN-WM的关键设计包括：1) 使用可微物理引擎（例如DiffTaichi）进行物理模拟，以便进行梯度反向传播；2) 使用高斯溅射进行渲染，并计算观测损失，避免了状态估计的误差；3) 通过随机化物理参数（例如摩擦系数、恢复系数）和渲染参数（例如光照、纹理）来生成数字孪生体，增加模型的鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PIN-WM在仿真和真实世界中均表现出色。在非抓取操作任务中，PIN-WM超越了Real2Sim2Real的最先进水平，实现了更好的Sim2Real迁移效果。具体而言，PIN-WM在真实机器人上的成功率显著高于其他基线方法，证明了其鲁棒性和泛化能力。

🎯 应用场景

该研究成果可应用于各种非抓取操作任务，例如机器人分拣、物体整理、以及在复杂环境中进行操作。通过学习物理信息世界模型，机器人可以更好地理解和预测环境的变化，从而实现更安全、更高效的操作。未来，该技术有望应用于自动化生产线、物流仓储等领域。

📄 摘要（原文）

While non-prehensile manipulation (e.g., controlled pushing/poking) constitutes a foundational robotic skill, its learning remains challenging due to the high sensitivity to complex physical interactions involving friction and restitution. To achieve robust policy learning and generalization, we opt to learn a world model of the 3D rigid body dynamics involved in non-prehensile manipulations and use it for model-based reinforcement learning. We propose PIN-WM, a Physics-INformed World Model that enables efficient end-to-end identification of a 3D rigid body dynamical system from visual observations. Adopting differentiable physics simulation, PIN-WM can be learned with only few-shot and task-agnostic physical interaction trajectories. Further, PIN-WM is learned with observational loss induced by Gaussian Splatting without needing state estimation. To bridge Sim2Real gaps, we turn the learned PIN-WM into a group of Digital Cousins via physics-aware randomizations which perturb physics and rendering parameters to generate diverse and meaningful variations of the PIN-WM. Extensive evaluations on both simulation and real-world tests demonstrate that PIN-WM, enhanced with physics-aware digital cousins, facilitates learning robust non-prehensile manipulation skills with Sim2Real transfer, surpassing the Real2Sim2Real state-of-the-arts.

PIN-WM: Learning Physics-INformed World Models for Non-Prehensile Manipulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理