PhyGenHOI: Physically-Aware 4D Generation of Dynamic Human-Object Interactions

📄 arXiv: 2605.30268v1 📥 PDF

作者: Omer Benishu, Gal Fiebelman, Sagie Benaim

分类: cs.CV, cs.AI

发布日期: 2026-05-28

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

PhyGenHOI:提出物理感知的动态人-物交互4D生成框架

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人-物交互 4D生成 物理模拟 运动扩散模型 3D高斯 物质点法 HOI生成

📋 核心要点

  1. 现有方法难以生成物理上合理且视觉上逼真的动态人-物交互场景,尤其是在模拟复杂交互动作时。
  2. PhyGenHOI通过耦合生成式人体运动和显式物理对象模拟,利用3D高斯表示,实现物理感知的动态HOI生成。
  3. 实验结果表明,PhyGenHOI在生成物理一致的4D HOI方面优于现有基线方法,适用于多种动作、人和物体。

📝 摘要(中文)

本文提出了一种生成物理上精确且视觉上逼真的4D人-物交互(HOI)的方法。给定一个静态的3D人体和目标物体(表示为3D高斯Splats),我们的目标是合成动态场景,其中人体根据给定的输入文本主动与物体进行交互,例如拳击或踢腿。为此,我们引入了PhyGenHOI,这是一个新颖的框架,它将生成式人体运动与显式的物理对象模拟相结合。我们将人体建模为由运动扩散模型(MDM)驱动的语义代理,并将物体建模为通过物质点法(MPM)模拟的物理代理,利用3D高斯作为统一的可微表示。我们通过三种耦合机制来监督它们的交互:(1)窗口吸引损失,用于在时间上同步生成运动以拦截物体;(2)接触驱动的重新模拟步骤,在撞击时触发物理上一致的动量传递;(3)基于掩码视频的SDS目标,注入基于视频的先验知识以增强接触保真度。实验表明,PhyGenHOI可以在各种动作、人和物体上生成物理上一致的4D HOI,优于基线方法。

🔬 方法详解

问题定义:论文旨在解决生成物理上精确且视觉上逼真的动态人-物交互(HOI)的问题。现有方法在模拟复杂交互动作时,难以保证生成结果的物理合理性和视觉逼真度,尤其是在处理接触、碰撞等物理现象时表现不足。

核心思路:论文的核心思路是将生成式人体运动与显式的物理对象模拟相结合。通过将人体建模为由运动扩散模型驱动的语义代理,将物体建模为通过物质点法模拟的物理代理,并利用3D高斯作为统一的可微表示,实现人体和物体之间的物理交互。这种方法允许在生成过程中显式地考虑物理约束,从而提高生成结果的物理合理性。

技术框架:PhyGenHOI框架包含以下主要模块:1) 运动扩散模型(MDM):用于生成人体运动;2) 物质点法(MPM)模拟器:用于模拟物体的物理行为;3) 3D高斯表示:用于统一表示人体和物体;4) 窗口吸引损失:用于同步人体运动以拦截物体;5) 接触驱动的重新模拟步骤:用于在撞击时触发动量传递;6) 基于掩码视频的SDS目标:用于增强接触保真度。整体流程是,首先使用MDM生成人体运动,然后使用MPM模拟物体运动,并通过窗口吸引损失和接触驱动的重新模拟步骤来监督人体和物体之间的交互,最后使用基于掩码视频的SDS目标来提高生成结果的视觉质量。

关键创新:该论文的关键创新在于将生成式模型与物理模拟相结合,并使用3D高斯作为统一的可微表示。这种方法允许在生成过程中显式地考虑物理约束,从而提高生成结果的物理合理性。此外,论文还提出了窗口吸引损失和接触驱动的重新模拟步骤,用于监督人体和物体之间的交互。

关键设计:窗口吸引损失通过在时间窗口内计算人体和物体之间的距离来同步人体运动,确保人体能够成功拦截物体。接触驱动的重新模拟步骤在检测到人体和物体之间的碰撞时,触发MPM模拟器进行重新模拟,以确保动量传递的物理一致性。基于掩码视频的SDS目标利用预训练的视频扩散模型来提高生成结果的视觉质量,并增强接触区域的细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PhyGenHOI在生成物理一致的4D HOI方面优于现有基线方法。通过定性和定量评估,证明了PhyGenHOI能够生成更逼真、更符合物理规律的人-物交互动画。具体性能数据和对比基线信息在论文中详细给出。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、机器人控制等领域。例如,可以用于生成逼真的人机交互动画,训练机器人在复杂环境中进行操作,以及创建更具沉浸感的虚拟现实体验。未来,该技术有望进一步扩展到更复杂的场景,例如多人交互、复杂物体操作等。

📄 摘要(原文)

We address the task of generating physically accurate and visually faithful 4D Human-Object Interaction (HOI). Given a static 3D human and target object represented as 3D Gaussian Splats (3DGS), our goal is to synthesize dynamic scenes where the human actively engages with the object through actions, such as punching or kicking, in accordance with a given input text. To this end, we introduce PhyGenHOI, a novel framework that couples generative human motion with an explicit physical object simulation. We model the human as a semantic agent driven by a Motion Diffusion Model (MDM) and the object as a physical agent simulated via the Material Point Method (MPM), utilizing 3D Gaussians as a unified, differentiable representation. We supervise their interaction through three coupled mechanisms: (1) A Windowed Attraction Loss that temporally synchronizes generative motion to intercept the object; (2) A Contact-Driven Re-simulation step that triggers physically consistent momentum transfer upon impact; and (3) A Masked Video-SDS objective that injects video-based priors to enhance contact fidelity. Experiments show PhyGenHOI generates physically consistent 4D HOI across diverse actions, humans, and objects, outperforming baselines. Project page and videos: https://omerbenishu.github.io/PhyGenHOI/