$Δ$ynamics: Language-Based Representation for Inferring Rigid-Body Dynamics From Videos

作者: Chia-Hsiang Kao, Cong Phuoc Huynh, Chien-Yi Wang, Noranart Vesdapunt, Stefan Stojanov, Bharath Hariharan, Oleksandr Obiednikov, Ning Zhou

分类: cs.CV

发布日期: 2026-05-20

备注: Accepted to CVPR 2026. Project page: https://iandrover.github.io/2026_dynamics

💡 一句话要点

提出$Δ$YNAMICS，利用语言表示从视频中推断刚体动力学，提升泛化性。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 刚体动力学推断 视觉语言模型 物理模拟 语言表示 光流 泛化能力 视频理解

📋 核心要点

现有方法在刚体动力学推断中依赖特定假设，泛化能力不足，难以应用于复杂现实场景。
$Δ$YNAMICS框架利用语言作为统一表示，生成场景配置文本，驱动物理模拟，提升模型泛化性。
实验表明，$Δ$YNAMICS在CLEVRER数据集上显著优于现有VLM，并在真实数据集上展现出强大的迁移能力。

📝 摘要（中文）

本文提出了一种名为$Δ$YNAMICS的视觉-语言框架，它使用语言作为刚体动力学的统一表示，从单目视频中推断刚体的物理状态和属性。与现有方法依赖特定物理系统、对象类型和相机姿态不同，$Δ$YNAMICS通过生成结构化的文本格式的场景配置来进行物理模拟，从而更好地泛化到复杂的现实环境中。该模型集成了自然语言运动推理，并利用光流作为语义无关的输入，进一步增强了泛化能力。在CLEVRER数据集上，$Δ$YNAMICS实现了0.30的分割IoU，比领先的VLM（InternVL3-8B、Qwen2.5-VL-7B和Claude-4-Sonnet）提高了7倍。此外，测试时采样和进化搜索分别将分割IoU提高了27%和120%。最后，该模型在包含235个真实刚体视频的新数据集上表现出强大的迁移能力，突显了语言驱动的物理推理在桥接感知和模拟方面的潜力。

🔬 方法详解

问题定义：现有方法在从视频中推断刚体动力学时，通常针对特定的物理系统、物体类型和相机姿态进行设计，这限制了它们在复杂和真实的场景中的泛化能力。这些方法难以处理具有多样化物体和运动模式的场景，并且对于未知的物理属性推断能力较弱。

核心思路：$Δ$YNAMICS的核心思路是将刚体动力学推理问题转化为一个语言生成问题。通过使用自然语言来描述场景的配置和物体的运动，模型可以学习到一种更加通用和灵活的表示方式。这种方法避免了直接预测物理参数，而是生成可用于物理模拟的结构化文本，从而提高了模型的泛化能力。

技术框架：$Δ$YNAMICS框架主要包含以下几个模块：1) 视频编码器：用于提取视频帧的视觉特征。2) 光流估计器：用于提取视频中的运动信息，作为语义无关的输入。3) 语言模型：用于生成描述场景配置和物体运动的文本。4) 物理引擎：用于根据生成的文本配置进行物理模拟，并生成模拟结果。整个流程是，首先将视频输入到视频编码器和光流估计器中，提取视觉特征和运动信息。然后，将这些特征输入到语言模型中，生成描述场景配置和物体运动的文本。最后，将生成的文本输入到物理引擎中，进行物理模拟，并根据模拟结果进行评估和优化。

关键创新：$Δ$YNAMICS的关键创新在于使用语言作为刚体动力学的统一表示。与传统的直接预测物理参数的方法不同，$Δ$YNAMICS通过生成结构化的文本来描述场景配置和物体运动，从而实现了一种更加通用和灵活的表示方式。此外，该模型还集成了自然语言运动推理和光流信息，进一步增强了模型的泛化能力。

关键设计：$Δ$YNAMICS的关键设计包括：1) 使用Transformer架构的语言模型，以捕捉场景配置和物体运动之间的复杂关系。2) 引入光流作为语义无关的输入，以提供额外的运动信息。3) 设计了一种结构化的文本格式，用于描述场景配置和物体运动。4) 使用测试时采样和进化搜索等技术，进一步提高模型的性能。具体的损失函数和网络结构细节在论文中应该有更详细的描述（未知）。

🖼️ 关键图片

📊 实验亮点

$Δ$YNAMICS在CLEVRER数据集上实现了0.30的分割IoU，相比于领先的VLM模型（InternVL3-8B、Qwen2.5-VL-7B和Claude-4-Sonnet）提升了7倍。通过测试时采样和进化搜索，分割IoU分别进一步提升了27%和120%。此外，该模型在包含235个真实刚体视频的新数据集上表现出强大的迁移能力，验证了其在真实场景中的有效性。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、游戏开发、虚拟现实等领域。通过从视频中推断物理属性和动力学，机器人可以更好地理解和与环境交互。在游戏和虚拟现实中，可以创建更逼真的物理模拟效果。该技术还有潜力用于教育和科研，例如用于创建交互式物理学习工具。

📄 摘要（原文）

Inferring rigid-body physical states and properties from monocular videos is a fundamental step toward physics-based perception and simulation. Existing approaches assume specific underlying physical systems, object types, and camera poses, making them unable to generalize to complex real-world settings. We introduce $Δ$YNAMICS, a vision-language framework that uses language as a unified representation of rigid-body dynamics. Instead of directly predicting parameters, $Δ$YNAMICS generates scene configurations in a structured text format for physics simulation. We enhance the model's generalization by integrating natural language motion reasoning and leveraging optical flow as a semantic-agnostic input. On the CLEVRER dataset, $Δ$YNAMICS achieves a segmentation IoU of 0.30, a 7x improvement over leading VLMs (InternVL3-8B, Qwen2.5-VL-7B and Claude-4-Sonnet). Additionally, test-time sampling and evolutionary search further boost performance by 27% and 120% in segmentation IoU, respectively. Finally, we demonstrate strong transfer to a new dataset of 235 real-world rigid-body videos, highlighting the potential of language-driven physics inference for bridging perception and simulation.

$Δ$ynamics: Language-Based Representation for Inferring Rigid-Body Dynamics From Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理