PhysForge: Generating Physics-Grounded 3D Assets for Interactive Virtual World

📄 arXiv: 2605.05163v1 📥 PDF

作者: Yunhan Yang, Chunshi Wang, Junliang Ye, Yang Li, Zanxin Chen, Zehuan Huang, Yao Mu, Zhuo Chen, Chunchao Guo, Xihui Liu

分类: cs.CV

发布日期: 2026-05-06

备注: Accepted by ICML 2026. Project Page: https://hku-mmlab.github.io/PhysForge/


💡 一句话要点

PhysForge:生成具有物理属性的3D资产,用于交互式虚拟世界

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D资产生成 物理仿真 具身智能 扩散模型 视觉语言模型

📋 核心要点

  1. 现有3D资产生成方法侧重于静态几何,忽略了交互所需的关键功能属性和物理属性。
  2. PhysForge提出解耦的两阶段框架,利用VLM规划物理蓝图,再由物理驱动的扩散模型生成3D资产。
  3. 实验证明PhysForge能够生成功能合理且可用于仿真的3D资产,为交互式3D内容和具身智能体提供数据支持。

📝 摘要(中文)

交互式虚拟世界和具身智能的关键瓶颈在于合成具有物理属性的3D资产。现有方法主要关注静态几何形状,忽略了交互所需的功能属性。我们提出交互式资产生成必须基于功能逻辑和分层物理。为了弥合这一差距,我们引入了PhysForge,这是一个解耦的两阶段框架,由PhysDB(一个包含15万个资产和四层物理标注的大规模数据集)支持。首先,VLM充当“物理架构师”,规划定义材料、功能和运动学约束的“分层物理蓝图”。其次,一个基于物理的扩散模型通过一种新颖的KineVoxel注入(KVI)机制,合成高保真几何形状以及精确的运动学参数,从而实现此蓝图。实验表明,PhysForge生成功能合理、可用于仿真的资产,为交互式3D内容和具身智能体提供了一个强大的数据引擎。

🔬 方法详解

问题定义:现有方法在生成用于交互式虚拟世界的3D资产时,主要关注静态几何形状,缺乏对功能属性和物理属性的建模。这导致生成的资产无法直接用于仿真和交互,限制了具身智能体的发展。因此,需要一种能够生成具有物理属性和功能属性的3D资产的方法。

核心思路:PhysForge的核心思路是将3D资产的生成过程解耦为两个阶段:物理蓝图规划和几何形状生成。首先,利用视觉语言模型(VLM)作为“物理架构师”,根据用户需求规划一个分层的物理蓝图,该蓝图定义了资产的材料、功能和运动学约束。然后,利用一个基于物理的扩散模型,根据该蓝图生成高保真度的几何形状,并精确地估计运动学参数。

技术框架:PhysForge包含两个主要阶段:1) 物理蓝图规划阶段:使用VLM根据用户需求生成分层的物理蓝图。该蓝图包含资产的材料、功能和运动学约束等信息。2) 几何形状生成阶段:使用一个基于物理的扩散模型,根据物理蓝图生成高保真度的几何形状,并使用KineVoxel注入(KVI)机制精确地估计运动学参数。

关键创新:PhysForge的关键创新在于:1) 提出了一个解耦的两阶段框架,将物理蓝图规划和几何形状生成分离,使得可以更好地控制资产的物理属性和功能属性。2) 提出了KineVoxel注入(KVI)机制,用于精确地估计运动学参数。3) 构建了一个大规模的3D资产数据集PhysDB,该数据集包含15万个资产和四层物理标注。

关键设计:KineVoxel Injection (KVI) 机制通过在扩散模型的去噪过程中,将运动学信息注入到体素表示中,从而引导模型生成具有正确运动学属性的几何形状。具体来说,KVI在扩散模型的每个去噪步骤中,根据物理蓝图中的运动学约束,调整体素的密度和位置。此外,PhysForge还使用了对抗训练来提高生成资产的真实感。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PhysForge在生成具有物理属性的3D资产方面取得了显著成果。实验表明,PhysForge生成的资产在功能合理性和可仿真性方面优于现有方法。例如,PhysForge生成的铰链结构的运动范围更接近真实值,并且能够更好地支持物理交互。此外,PhysForge还能够生成各种不同类型的资产,证明了其通用性和可扩展性。

🎯 应用场景

PhysForge生成的具有物理属性的3D资产可以广泛应用于交互式虚拟世界、具身智能、机器人仿真等领域。例如,可以用于创建更逼真的虚拟环境,训练具身智能体完成各种任务,以及设计和测试新的机器人系统。该研究为构建更智能、更具交互性的虚拟世界奠定了基础。

📄 摘要(原文)

Synthesizing physics-grounded 3D assets is a critical bottleneck for interactive virtual worlds and embodied AI. Existing methods predominantly focus on static geometry, overlooking the functional properties essential for interaction. We propose that interactive asset generation must be rooted in functional logic and hierarchical physics. To bridge this gap, we introduce PhysForge, a decoupled two-stage framework supported by PhysDB, a large-scale dataset of 150,000 assets with four-tier physical annotations. First, a VLM acts as a "physical architect" to plan a "Hierarchical Physical Blueprint" defining material, functional, and kinematic constraints. Second, a physics-grounded diffusion model realizes this blueprint by synthesizing high-fidelity geometry alongside precise kinematic parameters via a novel KineVoxel Injection (KVI) mechanism. Experiments demonstrate that PhysForge produces functionally plausible, simulation-ready assets, providing a robust data engine for interactive 3D content and embodied agents.