MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling

作者: Shubo Lin, Xuanyang Zhang, Wei Cheng, Weiming Hu, Gang Yu, Jin Gao

分类: cs.CV

发布日期: 2026-04-06

💡 一句话要点

MMPhysVideo：通过联合多模态建模提升视频生成中物理合理性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视频生成 物理合理性 多模态建模 知识蒸馏 视觉语言模型 数据标注 伪RGB 双向控制

📋 核心要点

现有视频生成模型在物理合理性方面存在不足，因为它们主要依赖于像素级别的重建，忽略了物理世界的约束。
MMPhysVideo通过将语义、几何和时空轨迹等感知信息编码为伪RGB格式，使视频扩散模型能够学习复杂的物理动态。
该方法通过双向控制教师架构解耦RGB和感知处理，并使用知识蒸馏将物理先验传递到单流学生模型，提高了推理效率。

📝 摘要（中文）

视频扩散模型(VDMs)在生成视觉效果惊艳的内容方面取得了显著进展，但由于仅依赖像素重建，常常产生物理上不一致的结果。为了解决这个问题，我们提出了MMPhysVideo，这是第一个通过联合多模态建模来提升视频生成中物理合理性的框架。我们将感知线索，特别是语义、几何和时空轨迹，重塑为统一的伪RGB格式，使VDMs能够直接捕捉复杂的物理动态。为了减轻跨模态干扰，我们提出了双向控制教师架构，该架构利用并行分支来完全解耦RGB和感知处理，并采用两个零初始化的控制链接来逐步学习像素级一致性。为了提高推理效率，教师的物理先验通过表征对齐被提炼到单流学生模型中。此外，我们提出了MMPhysPipe，这是一个可扩展的数据管理和标注流程，专门用于构建富含物理信息的多模态数据集。MMPhysPipe采用由视觉证据链规则引导的视觉语言模型(VLM)来精确定位物理对象，使专家模型能够提取多粒度的感知信息。在不增加额外推理成本的情况下，MMPhysVideo在各种基准测试中始终如一地提高了物理合理性和视觉质量，并且与现有方法相比，实现了最先进的性能。

🔬 方法详解

问题定义：现有视频生成模型生成的视频在物理合理性方面存在缺陷，例如物体运动不符合物理规律，或者物体之间的交互不真实。这是因为现有模型主要关注像素级别的重建，而忽略了视频中蕴含的物理信息。

核心思路：MMPhysVideo的核心思路是将视频中的物理信息（语义、几何、时空轨迹）提取出来，并将其编码成一种伪RGB格式，然后将这种伪RGB格式作为视频生成模型的输入。这样，视频生成模型就可以直接学习到视频中的物理信息，从而生成更加符合物理规律的视频。

技术框架：MMPhysVideo的整体框架包括三个主要模块：MMPhysPipe数据管理和标注流程，双向控制教师架构，以及单流学生模型。MMPhysPipe用于构建富含物理信息的多模态数据集。双向控制教师架构用于解耦RGB和感知处理，并学习像素级一致性。单流学生模型用于知识蒸馏，提高推理效率。

关键创新：MMPhysVideo的关键创新在于：1) 提出了一种将物理信息编码成伪RGB格式的方法，使得视频生成模型可以直接学习到视频中的物理信息。2) 提出了一种双向控制教师架构，可以有效地解耦RGB和感知处理，并学习像素级一致性。3) 提出了一种单流学生模型，可以有效地进行知识蒸馏，提高推理效率。

关键设计：双向控制教师架构包含两个并行分支，分别处理RGB信息和感知信息。这两个分支之间通过两个零初始化的控制链接进行连接，从而逐步学习像素级一致性。损失函数包括重建损失、感知损失和一致性损失。知识蒸馏采用表征对齐的方法，使得学生模型的表征与教师模型的表征尽可能相似。

🖼️ 关键图片

📊 实验亮点

MMPhysVideo在多个基准测试中都取得了显著的性能提升。与现有最先进的模型相比，MMPhysVideo在物理合理性和视觉质量方面都得到了显著改善，且无需额外的推理成本。实验结果表明，该方法能够有效地提高视频生成模型的物理合理性。

🎯 应用场景

MMPhysVideo在游戏开发、电影制作、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于生成更加逼真和自然的虚拟场景，提高用户体验。此外，该技术还可以用于训练机器人，使其能够更好地理解和适应物理世界。

📄 摘要（原文）

Despite advancements in generating visually stunning content, video diffusion models (VDMs) often yield physically inconsistent results due to pixel-only reconstruction. To address this, we propose MMPhysVideo, the first framework to scale physical plausibility in video generation through joint multimodal modeling. We recast perceptual cues, specifically semantics, geometry, and spatio-temporal trajectory, into a unified pseudo-RGB format, enabling VDMs to directly capture complex physical dynamics. To mitigate cross-modal interference, we propose a Bidirectionally Controlled Teacher architecture, which utilizes parallel branches to fully decouple RGB and perception processing and adopts two zero-initialized control links to gradually learn pixel-wise consistency. For inference efficiency, the teacher's physical prior is distilled into a single-stream student model via representation alignment. Furthermore, we present MMPhysPipe, a scalable data curation and annotation pipeline tailored for constructing physics-rich multimodal datasets. MMPhysPipe employs a vision-language model (VLM) guided by a chain-of-visual-evidence rule to pinpoint physical subjects, enabling expert models to extract multi-granular perceptual information. Without additional inference costs, MMPhysVideo consistently improves physical plausibility and visual quality over advanced models across various benchmarks and achieves state-of-the-art performance compared to existing methods.

MMPhysVideo: Scaling Physical Plausibility in Video Generation via Joint Multimodal Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理