$Δ$ynamics: Language-Based Representation for Inferring Rigid-Body Dynamics From Videos
作者: Chia-Hsiang Kao, Cong Phuoc Huynh, Chien-Yi Wang, Noranart Vesdapunt, Stefan Stojanov, Bharath Hariharan, Oleksandr Obiednikov, Ning Zhou
分类: cs.CV
发布日期: 2026-05-20
备注: Accepted to CVPR 2026. Project page: https://iandrover.github.io/2026_dynamics
💡 一句话要点
提出$Δ$YNAMICS,利用语言表示从视频中推断刚体动力学,提升泛化性。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 刚体动力学推断 视觉语言模型 物理模拟 语言表示 光流 泛化能力 视频理解
📋 核心要点
- 现有方法在刚体动力学推断中依赖特定假设,泛化能力不足,难以应用于复杂现实场景。
- $Δ$YNAMICS框架利用语言作为统一表示,生成场景配置文本,驱动物理模拟,提升模型泛化性。
- 实验表明,$Δ$YNAMICS在CLEVRER数据集上显著优于现有VLM,并在真实数据集上展现出强大的迁移能力。
📝 摘要(中文)
本文提出了一种名为$Δ$YNAMICS的视觉-语言框架,它使用语言作为刚体动力学的统一表示,从单目视频中推断刚体的物理状态和属性。与现有方法依赖特定物理系统、对象类型和相机姿态不同,$Δ$YNAMICS通过生成结构化的文本格式的场景配置来进行物理模拟,从而更好地泛化到复杂的现实环境中。该模型集成了自然语言运动推理,并利用光流作为语义无关的输入,进一步增强了泛化能力。在CLEVRER数据集上,$Δ$YNAMICS实现了0.30的分割IoU,比领先的VLM(InternVL3-8B、Qwen2.5-VL-7B和Claude-4-Sonnet)提高了7倍。此外,测试时采样和进化搜索分别将分割IoU提高了27%和120%。最后,该模型在包含235个真实刚体视频的新数据集上表现出强大的迁移能力,突显了语言驱动的物理推理在桥接感知和模拟方面的潜力。
🔬 方法详解
问题定义:现有方法在从视频中推断刚体动力学时,通常针对特定的物理系统、物体类型和相机姿态进行设计,这限制了它们在复杂和真实的场景中的泛化能力。这些方法难以处理具有多样化物体和运动模式的场景,并且对于未知的物理属性推断能力较弱。
核心思路:$Δ$YNAMICS的核心思路是将刚体动力学推理问题转化为一个语言生成问题。通过使用自然语言来描述场景的配置和物体的运动,模型可以学习到一种更加通用和灵活的表示方式。这种方法避免了直接预测物理参数,而是生成可用于物理模拟的结构化文本,从而提高了模型的泛化能力。
技术框架:$Δ$YNAMICS框架主要包含以下几个模块:1) 视频编码器:用于提取视频帧的视觉特征。2) 光流估计器:用于提取视频中的运动信息,作为语义无关的输入。3) 语言模型:用于生成描述场景配置和物体运动的文本。4) 物理引擎:用于根据生成的文本配置进行物理模拟,并生成模拟结果。整个流程是,首先将视频输入到视频编码器和光流估计器中,提取视觉特征和运动信息。然后,将这些特征输入到语言模型中,生成描述场景配置和物体运动的文本。最后,将生成的文本输入到物理引擎中,进行物理模拟,并根据模拟结果进行评估和优化。
关键创新:$Δ$YNAMICS的关键创新在于使用语言作为刚体动力学的统一表示。与传统的直接预测物理参数的方法不同,$Δ$YNAMICS通过生成结构化的文本来描述场景配置和物体运动,从而实现了一种更加通用和灵活的表示方式。此外,该模型还集成了自然语言运动推理和光流信息,进一步增强了模型的泛化能力。
关键设计:$Δ$YNAMICS的关键设计包括:1) 使用Transformer架构的语言模型,以捕捉场景配置和物体运动之间的复杂关系。2) 引入光流作为语义无关的输入,以提供额外的运动信息。3) 设计了一种结构化的文本格式,用于描述场景配置和物体运动。4) 使用测试时采样和进化搜索等技术,进一步提高模型的性能。具体的损失函数和网络结构细节在论文中应该有更详细的描述(未知)。
🖼️ 关键图片
📊 实验亮点
$Δ$YNAMICS在CLEVRER数据集上实现了0.30的分割IoU,相比于领先的VLM模型(InternVL3-8B、Qwen2.5-VL-7B和Claude-4-Sonnet)提升了7倍。通过测试时采样和进化搜索,分割IoU分别进一步提升了27%和120%。此外,该模型在包含235个真实刚体视频的新数据集上表现出强大的迁移能力,验证了其在真实场景中的有效性。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、游戏开发、虚拟现实等领域。通过从视频中推断物理属性和动力学,机器人可以更好地理解和与环境交互。在游戏和虚拟现实中,可以创建更逼真的物理模拟效果。该技术还有潜力用于教育和科研,例如用于创建交互式物理学习工具。
📄 摘要(原文)
Inferring rigid-body physical states and properties from monocular videos is a fundamental step toward physics-based perception and simulation. Existing approaches assume specific underlying physical systems, object types, and camera poses, making them unable to generalize to complex real-world settings. We introduce $Δ$YNAMICS, a vision-language framework that uses language as a unified representation of rigid-body dynamics. Instead of directly predicting parameters, $Δ$YNAMICS generates scene configurations in a structured text format for physics simulation. We enhance the model's generalization by integrating natural language motion reasoning and leveraging optical flow as a semantic-agnostic input. On the CLEVRER dataset, $Δ$YNAMICS achieves a segmentation IoU of 0.30, a 7x improvement over leading VLMs (InternVL3-8B, Qwen2.5-VL-7B and Claude-4-Sonnet). Additionally, test-time sampling and evolutionary search further boost performance by 27% and 120% in segmentation IoU, respectively. Finally, we demonstrate strong transfer to a new dataset of 235 real-world rigid-body videos, highlighting the potential of language-driven physics inference for bridging perception and simulation.