PhysWorld: From Real Videos to World Models of Deformable Objects via Physics-Aware Demonstration Synthesis

📄 arXiv: 2510.21447v1 📥 PDF

作者: Yu Yang, Zhilu Zhang, Xiang Zhang, Yihan Zeng, Hui Li, Wangmeng Zuo

分类: cs.CV, cs.AI, cs.RO

发布日期: 2025-10-24

备注: 17 pages, 5 figures


💡 一句话要点

PhysWorld:通过物理感知演示合成,从真实视频构建可变形对象的交互式世界模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 世界模型 可变形物体 物理模拟 图神经网络 数据合成

📋 核心要点

  1. 现有方法难以从少量真实视频数据中学习可变形对象的物理一致性动力学模型,尤其当物体物理属性存在空间差异时。
  2. PhysWorld利用MPM模拟器构建数字孪生,通过物理属性扰动生成多样化演示数据,训练轻量级GNN世界模型。
  3. 实验表明,PhysWorld在预测精度上具有竞争力,且推理速度比PhysTwin快47倍,并能泛化到新的交互。

📝 摘要(中文)

交互式世界模型能够模拟物体动态,对机器人、VR和AR至关重要。然而,从有限的真实世界视频数据中学习具有物理一致性的动力学模型仍然是一个巨大的挑战,特别是对于具有空间变化物理属性的可变形物体。为了克服数据稀缺的挑战,我们提出了PhysWorld,一个新颖的框架,它利用模拟器合成物理上合理且多样化的演示,以学习高效的世界模型。具体来说,我们首先通过本构模型选择和物理属性的全局到局部优化,在MPM模拟器中构建一个物理一致的数字孪生。随后,我们对物理属性应用部分感知的扰动,并为数字孪生生成各种运动模式,合成广泛而多样的演示。最后,使用这些演示,我们训练了一个嵌入物理属性的轻量级基于GNN的世界模型。真实视频可用于进一步细化物理属性。PhysWorld实现了对各种可变形物体的准确和快速的未来预测,并且能够很好地推广到新的交互。实验表明,PhysWorld具有竞争力的性能,同时实现了比最新的方法PhysTwin快47倍的推理速度。

🔬 方法详解

问题定义:论文旨在解决从有限的真实视频数据中学习可变形物体动力学模型的问题,尤其针对物理属性具有空间变化的物体。现有方法在数据稀缺的情况下难以保证模型预测的物理一致性和泛化能力,并且计算效率较低。

核心思路:核心思路是利用物理模拟器生成大量具有物理合理性的合成数据,弥补真实数据的不足。通过在模拟环境中对物体物理属性进行扰动,生成多样化的运动模式,从而训练更鲁棒的世界模型。同时,利用真实视频数据对物理属性进行微调,进一步提升模型精度。

技术框架:PhysWorld框架主要包含三个阶段:1) 构建物理一致的数字孪生:在MPM模拟器中,通过本构模型选择和物理属性优化,构建与真实物体对应的数字孪生模型。2) 合成多样化演示数据:对数字孪生的物理属性进行部分感知的扰动,生成各种运动模式,从而合成大量多样化的演示数据。3) 训练轻量级世界模型:使用合成数据训练一个基于GNN的轻量级世界模型,该模型嵌入了物理属性信息。真实视频数据可用于进一步优化物理属性。

关键创新:主要创新点在于利用物理模拟器主动生成训练数据,并结合真实数据进行微调。这种方法有效解决了数据稀缺问题,并保证了模型预测的物理一致性。此外,通过部分感知的物理属性扰动,生成了更具多样性的训练数据,提升了模型的泛化能力。

关键设计:在构建数字孪生时,采用了全局到局部的物理属性优化策略,以保证模型的物理一致性。在生成演示数据时,采用了部分感知的扰动方法,避免了对整个物体物理属性的全局扰动,从而生成更真实的运动模式。世界模型采用了基于GNN的轻量级结构,并嵌入了物理属性信息,以提高模型的预测精度和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PhysWorld在多个可变形物体上进行了实验,结果表明其预测精度具有竞争力,同时推理速度比PhysTwin快47倍。此外,PhysWorld还能够很好地泛化到新的交互,例如对物体施加不同的外力。

🎯 应用场景

PhysWorld具有广泛的应用前景,例如机器人操作、虚拟现实和增强现实。它可以用于训练机器人进行复杂的物体操作任务,例如抓取、放置和变形等。在VR/AR领域,它可以用于创建更逼真的交互体验,例如模拟可变形物体的触感和运动。

📄 摘要(原文)

Interactive world models that simulate object dynamics are crucial for robotics, VR, and AR. However, it remains a significant challenge to learn physics-consistent dynamics models from limited real-world video data, especially for deformable objects with spatially-varying physical properties. To overcome the challenge of data scarcity, we propose PhysWorld, a novel framework that utilizes a simulator to synthesize physically plausible and diverse demonstrations to learn efficient world models. Specifically, we first construct a physics-consistent digital twin within MPM simulator via constitutive model selection and global-to-local optimization of physical properties. Subsequently, we apply part-aware perturbations to the physical properties and generate various motion patterns for the digital twin, synthesizing extensive and diverse demonstrations. Finally, using these demonstrations, we train a lightweight GNN-based world model that is embedded with physical properties. The real video can be used to further refine the physical properties. PhysWorld achieves accurate and fast future predictions for various deformable objects, and also generalizes well to novel interactions. Experiments show that PhysWorld has competitive performance while enabling inference speeds 47 times faster than the recent state-of-the-art method, i.e., PhysTwin.