Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World

作者: Yuzhi Huang, Kairun Wen, Rongxin Gao, Dongxuan Liu, Yibin Lou, Jie Wu, Jing Xu, Jian Zhang, Zheng Yang, Yunlong Lin, Chenxin Li, Panwang Pan, Junbin Lu, Jingyan Jiang, Xinghao Ding, Yue Huang, Zhi Wang

分类: cs.CV

发布日期: 2026-03-13

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出Dyn-Bench基准，评估多模态大语言模型在物理4D世界中的动态感知、跟踪和推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态大语言模型 动态场景理解 时空推理 动态对象定位 基准测试 视频分析

📋 核心要点

现有多模态大语言模型在静态视觉理解方面表现出色，但在理解和推理动态4D场景方面存在不足。
论文提出Dyn-Bench基准，旨在系统评估MLLM在时空推理和动态对象定位方面的能力，促进模型对动态场景的理解。
实验表明，现有模型在时空推理和动态对象定位方面难以兼顾，且传统提示策略效果有限，而Mask-Guided Fusion和ST-TCM等方法能显著提升性能。

📝 摘要（中文）

人类生活在一个物理的4D世界中，几何结构和语义内容随时间演变，构成了动态的4D现实（空间和时间维度）。虽然目前的多模态大语言模型（MLLMs）在静态视觉理解方面表现出色，但它们是否也能擅长“动态思维”，即感知、跟踪和推理演变场景中的时空动态？为了系统地评估其时空推理和局部动态感知能力，我们引入了Dyn-Bench，这是一个大规模基准，构建自各种真实世界和合成视频数据集，能够对时空理解进行稳健和可扩展的评估。通过对海量2D和4D数据源进行多阶段过滤，Dyn-Bench提供了一个高质量的动态场景集合，包含1k个视频、7k个视觉问答（VQA）对和3k个动态对象定位对。我们探测了通用、空间和区域级别的MLLM，以语言和视觉方式表达它们如何进行动态思考，并发现现有模型无法同时在时空推理和动态对象定位方面保持强大的性能，经常产生对运动和交互的不一致解释。值得注意的是，传统的提示策略（例如，思维链或基于字幕的提示）提供的改进有限，而结构化集成方法，包括Mask-Guided Fusion和时空文本认知图（ST-TCM），显著增强了MLLM在物理4D世界中的动态感知和时空推理能力。代码和基准可在https://dyn-bench.github.io/上找到。

🔬 方法详解

问题定义：现有MLLM在静态图像理解方面取得了显著进展，但对于动态的4D物理世界（包含时间和空间维度）的理解能力不足。具体来说，模型难以准确感知、跟踪和推理场景中物体的运动、交互以及时空关系。现有方法缺乏对动态信息的有效利用，导致在时空推理和动态对象定位任务中表现不佳。

核心思路：论文的核心思路是构建一个大规模、高质量的动态场景基准Dyn-Bench，用于系统评估MLLM在动态环境下的感知和推理能力。同时，探索有效的模型结构和训练策略，提升模型对时空动态信息的理解和利用。通过对模型进行多方面的测试，揭示其在动态场景理解方面的优势和不足，并为未来的研究提供指导。

技术框架：Dyn-Bench基准包含以下几个主要组成部分：1) 多样化的数据集：包含真实世界和合成视频数据，覆盖各种动态场景。2) 丰富的标注：提供视觉问答（VQA）对和动态对象定位对，用于评估模型的推理和定位能力。3) 多种评估指标：用于全面评估模型在时空推理和动态对象定位方面的性能。此外，论文还提出了两种结构化集成方法：Mask-Guided Fusion和时空文本认知图（ST-TCM），用于提升MLLM的动态感知和时空推理能力。

关键创新：论文的关键创新在于：1) 提出了Dyn-Bench基准，为动态场景理解提供了一个标准化的评估平台。2) 揭示了现有MLLM在动态场景理解方面的局限性。3) 提出了Mask-Guided Fusion和ST-TCM等结构化集成方法，有效提升了MLLM的动态感知和时空推理能力。与现有方法相比，该研究更关注模型对动态信息的理解和利用，并提供了一个更全面、更深入的评估框架。

关键设计：Mask-Guided Fusion通过引入mask信息来引导模型关注动态对象，从而提升定位精度。ST-TCM则通过构建时空文本认知图，将视频中的动态信息编码为结构化的文本表示，从而提升模型的推理能力。具体的参数设置、损失函数和网络结构等细节在论文中有详细描述，例如，ST-TCM可能涉及到图神经网络的设计和训练，以及文本编码器的选择和优化。

📊 实验亮点

实验结果表明，现有MLLM在Dyn-Bench基准上表现不佳，无法同时在时空推理和动态对象定位方面取得良好性能。传统提示策略的提升有限，而Mask-Guided Fusion和ST-TCM等结构化集成方法能够显著提升模型的动态感知和时空推理能力。具体性能提升数据在论文中有详细展示，例如，ST-TCM在VQA任务上的准确率提升了X%。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、视频监控、智能交通等领域。通过提升模型对动态环境的理解能力，可以使机器人在复杂场景中做出更准确、更安全的决策。此外，该研究还可以促进多模态大语言模型在视频分析、行为识别等方面的应用。

📄 摘要（原文）

Humans inhabit a physical 4D world where geometric structure and semantic content evolve over time, constituting a dynamic 4D reality (spatial with temporal dimension). While current Multimodal Large Language Models (MLLMs) excel in static visual understanding, can they also be adept at "thinking in dynamics", i.e., perceive, track and reason about spatio-temporal dynamics in evolving scenes? To systematically assess their spatio-temporal reasoning and localized dynamics perception capabilities, we introduce Dyn-Bench, a large-scale benchmark built from diverse real-world and synthetic video datasets, enabling robust and scalable evaluation of spatio-temporal understanding. Through multi-stage filtering from massive 2D and 4D data sources, Dyn-Bench provides a high-quality collection of dynamic scenes, comprising 1k videos, 7k visual question answering (VQA) pairs, and 3k dynamic object grounding pairs. We probe general, spatial and region-level MLLMs to express how they think in dynamics both linguistically and visually, and find that existing models cannot simultaneously maintain strong performance in both spatio-temporal reasoning and dynamic object grounding, often producing inconsistent interpretations of motion and interaction. Notably, conventional prompting strategies (e.g., chain-of-thought or caption-based hints) provide limited improvement, whereas structured integration approaches, including Mask-Guided Fusion and Spatio-Temporal Textual Cognitive Map (ST-TCM), significantly enhance MLLMs' dynamics perception and spatio-temporal reasoning in the physical 4D world. Code and benchmark are available at https://dyn-bench.github.io/.

Thinking in Dynamics: How Multimodal Large Language Models Perceive, Track, and Reason Dynamics in Physical 4D World

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理