PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

作者: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-10-24

备注: 17 pages, 5 figures

💡 一句话要点

PhysWorld：通过物理感知演示合成，从真实视频构建可变形对象的交互式世界模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion)

关键词: 世界模型 可变形物体 物理模拟 图神经网络 数据合成

📋 核心要点

现有方法难以从有限的真实视频数据中学习可变形物体的物理一致动力学模型，尤其当物体物理属性存在空间差异时。
PhysWorld利用模拟器合成物理上合理且多样化的演示数据，训练轻量级GNN世界模型，并用真实视频进一步优化物理属性。
实验表明，PhysWorld在预测精度上具有竞争力，且推理速度比现有最优方法PhysTwin快47倍。

📝 摘要（中文）

交互式世界模型能够模拟物体动力学，对机器人、VR和AR至关重要。然而，从有限的真实世界视频数据中学习物理一致的动力学模型仍然是一个巨大的挑战，特别是对于具有空间变化物理属性的可变形物体。为了克服数据稀缺的挑战，我们提出了PhysWorld，这是一个新颖的框架，它利用模拟器合成物理上合理且多样化的演示，以学习高效的世界模型。具体来说，我们首先通过本构模型选择和物理属性的全局到局部优化，在MPM模拟器中构建一个物理一致的数字孪生。随后，我们对物理属性应用部分感知的扰动，并为数字孪生生成各种运动模式，合成广泛而多样的演示。最后，使用这些演示，我们训练了一个嵌入物理属性的轻量级基于GNN的世界模型。真实视频可用于进一步细化物理属性。PhysWorld实现了对各种可变形物体的准确和快速的未来预测，并且能够很好地推广到新的交互。实验表明，PhysWorld具有竞争力的性能，同时实现了比最新的方法PhysTwin快47倍的推理速度。

🔬 方法详解

问题定义：论文旨在解决从有限的真实视频数据中学习可变形物体动力学模型的问题，尤其针对物理属性具有空间变化的物体。现有方法通常难以处理数据稀缺问题，且难以保证学习到的动力学模型具有物理一致性，导致泛化能力不足。

核心思路：论文的核心思路是利用物理模拟器生成大量具有物理合理性的合成数据，弥补真实数据的不足。通过在模拟环境中构建数字孪生，并对其物理属性进行扰动，生成多样化的运动模式，从而为世界模型的训练提供充足的数据。

技术框架：PhysWorld框架主要包含三个阶段：1) 数字孪生构建：在MPM模拟器中，通过本构模型选择和物理属性优化，构建与真实物体物理属性一致的数字孪生。2) 演示合成：对数字孪生的物理属性进行部分感知的扰动，生成各种运动模式，合成大量演示数据。3) 世界模型训练：使用合成的演示数据训练一个轻量级的基于GNN的世界模型，该模型嵌入了物理属性信息。真实视频数据可用于进一步微调物理属性。

关键创新：PhysWorld的关键创新在于利用物理模拟器主动生成训练数据，从而克服了真实数据稀缺的问题。通过对物理属性进行部分感知的扰动，保证了生成数据的多样性。此外，将物理属性嵌入到GNN世界模型中，提高了模型的预测精度和泛化能力。

关键设计：在数字孪生构建阶段，采用全局到局部的优化策略，首先优化整体物理属性，然后针对局部区域进行微调，以提高数字孪生的精度。在演示合成阶段，采用部分感知的扰动策略，避免生成不合理的运动模式。在世界模型训练阶段，使用轻量级的GNN结构，以提高推理速度。损失函数包括预测误差和物理一致性约束，以保证模型的预测精度和物理合理性。

📊 实验亮点

PhysWorld在可变形物体动力学建模方面取得了显著成果。实验结果表明，PhysWorld在预测精度上具有竞争力，同时推理速度比最先进的方法PhysTwin快47倍。这表明PhysWorld能够在保证预测精度的前提下，实现更快的实时交互。

🎯 应用场景

PhysWorld具有广泛的应用前景，例如机器人操作、虚拟现实和增强现实。它可以用于训练机器人进行复杂的物体操作任务，例如抓取、放置和变形。在VR/AR领域，它可以用于创建更逼真和交互性更强的虚拟环境，例如模拟可变形物体的交互效果。此外，该方法还可以用于材料属性估计和物理仿真等领域。

📄 摘要（原文）

Interactive world models that simulate object dynamics are crucial for robotics, VR, and AR. However, it remains a significant challenge to learn physics-consistent dynamics models from limited real-world video data, especially for deformable objects with spatially-varying physical properties. To overcome the challenge of data scarcity, we propose PhysWorld, a novel framework that utilizes a simulator to synthesize physically plausible and diverse demonstrations to learn efficient world models. Specifically, we first construct a physics-consistent digital twin within MPM simulator via constitutive model selection and global-to-local optimization of physical properties. Subsequently, we apply part-aware perturbations to the physical properties and generate various motion patterns for the digital twin, synthesizing extensive and diverse demonstrations. Finally, using these demonstrations, we train a lightweight GNN-based world model that is embedded with physical properties. The real video can be used to further refine the physical properties. PhysWorld achieves accurate and fast future predictions for various deformable objects, and also generalizes well to novel interactions. Experiments show that PhysWorld has competitive performance while enabling inference speeds 47 times faster than the recent state-of-the-art method, i.e., PhysTwin.

PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册