MechVerse: Evaluating Physical Motion Consistency in Video Generation Models

📄 arXiv: 2605.14843v1 📥 PDF

作者: Rahul Jain, Mayank Patel, Asim Unmesh, Karthik Ramani

分类: cs.CV

发布日期: 2026-05-14

备注: Under Review


💡 一句话要点

MechVerse:提出机械运动一致性评估基准,用于评估视频生成模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频生成 机械运动 物理一致性 基准数据集 运动学约束

📋 核心要点

  1. 现有视频生成模型难以保证生成视频中机械运动的物理一致性,例如刚体形变、部件间耦合失效等。
  2. 提出MechVerse基准数据集,包含多种机械组件及其运动学约束,用于评估模型生成机械运动的合理性。
  3. 实验表明,现有模型在生成机械运动时存在明显缺陷,尤其是在处理复杂耦合的机构时性能下降。

📝 摘要(中文)

文本和图像条件下的视频生成模型在视觉保真度和时间连贯性方面取得了显著进展,但它们通常无法生成符合运动学和几何约束的运动。在这些情况下,物体部件必须保持刚性,与相邻部件保持接触或耦合,并在连接部件之间一致地传递运动。这些要求在铰接式机械组件中尤为明显,其运动受到刚性连杆几何形状、接触/耦合关系以及通过运动链的传递的约束。因此,生成的视频可能看起来合理,但违反了预期的机制,例如旋转应该平移的部件、使刚性部件变形、破坏部件之间的耦合或未能移动下游部件。为了评估这一差距,我们引入了MechVerse,这是一个用于机械一致性图像到视频生成的基准。MechVerse包含来自1,357个机械组件的21,156个合成片段,分为141个类别,组织成三个运动学复杂度递增的层级:独立铰接、成对耦合和密集耦合的多部件机制。每个片段都配有一个结构化提示,描述部件身份、固定支撑、移动部件、运动原语、方向、速度/范围以及部件间依赖关系。我们使用标准视频指标、指令遵循分数以及人类对运动正确性和运动学耦合的判断来评估专有、开源和微调的图像到视频模型。结果表明,当前的模型可以保持外观和流畅性,但无法生成机械上可接受的运动,并且随着耦合复杂性的增加,误差也会增加。MechVerse提供了一个基准,用于测量和改进来自图像和语言输入的机制感知视频生成。

🔬 方法详解

问题定义:现有图像到视频生成模型在生成复杂机械运动时,难以保证运动的物理合理性,例如违反刚体约束、忽略部件间的耦合关系等。这些模型虽然在视觉效果和时间连贯性上表现良好,但缺乏对机械运动内在规律的理解,导致生成的视频在机械原理上是不可行的。

核心思路:MechVerse的核心思路是构建一个包含丰富机械组件和运动学约束的合成数据集,并设计相应的评估指标,从而系统地评估视频生成模型在机械运动一致性方面的能力。通过对不同复杂度的机械结构进行测试,可以更清晰地了解模型在处理不同类型运动约束时的表现。

技术框架:MechVerse数据集包含三个层级:独立铰接、成对耦合和密集耦合的多部件机制。每个视频片段都配有结构化的文本提示,描述了部件的身份、固定支撑、运动部件、运动原语、运动方向和速度,以及部件间的依赖关系。评估过程包括使用标准视频质量指标(如FID、IS等)、指令遵循分数以及人工评估来衡量生成视频的质量和机械运动的合理性。

关键创新:MechVerse的关键创新在于它专注于评估视频生成模型对机械运动物理一致性的理解和建模能力。与以往关注视觉效果和时间连贯性的基准不同,MechVerse强调了运动学和几何约束的重要性,并提供了一个系统化的方法来评估模型在这些方面的表现。

关键设计:MechVerse数据集包含21,156个视频片段,涵盖1,357个机械组件,分为141个类别。数据集的构建过程考虑了不同类型的机械运动和约束,并为每个视频片段提供了详细的文本描述。评估指标包括传统的视频质量指标、指令遵循分数(衡量模型是否按照文本提示生成视频)以及人工评估(判断生成视频中的机械运动是否合理)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有图像到视频生成模型在MechVerse基准上表现不佳,尤其是在处理具有复杂耦合关系的机械组件时,生成视频的机械运动一致性明显不足。例如,模型经常无法正确模拟齿轮之间的啮合关系或连杆机构的运动传递。这些结果突显了现有模型在理解和建模物理规律方面的局限性。

🎯 应用场景

MechVerse的研究成果可应用于机器人、自动化、虚拟现实等领域。例如,可以用于训练机器人更好地理解和模拟机械运动,提高自动化系统的智能化水平,以及增强虚拟现实环境的真实感和交互性。此外,该基准还可以促进视频生成模型在物理规律建模方面的研究进展。

📄 摘要(原文)

Text- and image-conditioned video generation models have achieved strong visual fidelity and temporal coherence, but they often fail to generate motion governed by kinematic and geometric constraints. In these settings, object parts must remain rigid, maintain contact or coupling with neighboring components, and transfer motion consistently across connected parts. These requirements are especially explicit in articulated mechanical assemblies, where motion is constrained by rigid-link geometry, contact/coupling relations, and transmission through kinematic chains. A generated video may therefore appear plausible while violating the intended mechanism, such as rotating a part that should translate, deforming a rigid component, breaking coupling between parts, or failing to move downstream components. To evaluate this gap, We introduce MechVerse, a benchmark for mechanically consistent image-to-video generation. MechVerse contains 21,156 synthetic clips from 1,357 mechanical assemblies across 141 categories, organized into three tiers of increasing kinematic complexity: independent articulation, pairwise coupling, and densely coupled multi-part mechanisms. Each clip is paired with a structured prompt describing part identities, stationary supports, moving components, motion primitives, direction, speed/extent, and inter-part dependencies. We evaluate proprietary, open-source, and fine-tuned image-to-video models using standard video metrics, instruction-following scores, and human judgments of motion correctness and kinematic coupling. Results show that current models can preserve appearance and smoothness while failing to generate mechanically admissible motion, with errors increasing as coupling complexity grows. MechVerse provides a benchmark for measuring and improving mechanism-aware video generation from image and language inputs.