MotionScape: A Large-Scale Real-World Highly Dynamic UAV Video Dataset for World Models

📄 arXiv: 2604.07991v1 📥 PDF

作者: Zile Guo, Zhan Chen, Enze Zhu, Kan Wei, Yongkang Zou, Xiaoxuan Liu, Lei Wang

分类: cs.CV, cs.MM

发布日期: 2026-04-09

🔗 代码/项目: GITHUB


💡 一句话要点

MotionScape:用于世界模型的真实高动态无人机视频数据集

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无人机 世界模型 数据集 高动态 视觉SLAM 语义标注 自主导航

📋 核心要点

  1. 现有世界模型在无人机高动态场景下难以保持时空物理一致性,主要原因是缺乏包含真实6-DoF运动的数据集。
  2. MotionScape通过构建大规模无人机视频数据集,结合精确的相机轨迹和语义标注,为世界模型提供更丰富的训练数据。
  3. 实验表明,使用MotionScape训练的世界模型能更好地模拟复杂3D动态,提升无人机在复杂环境中的决策和规划能力。

📝 摘要(中文)

世界模型在模拟物理现实方面取得了显著进展,使其成为具身智能日益重要的基础。特别是对于无人机智能体而言,精确预测复杂的3D动态对于在无约束环境中的自主导航和鲁棒决策至关重要。然而,在无人机视角典型的高动态相机轨迹下,现有的世界模型通常难以维持时空物理一致性。一个关键原因是当前训练数据的分布偏差:大多数现有数据集表现出受限的2.5D运动模式,例如地面约束的自动驾驶场景或相对平滑的以人为中心的自我中心视频,因此缺乏真实的高动态6-DoF无人机运动先验。为了解决这个差距,我们提出了MotionScape,一个大规模的真实世界无人机视角视频数据集,具有用于世界建模的高动态运动。MotionScape包含超过30小时的4K无人机视角视频,总计超过450万帧。这个新颖的数据集具有语义和几何对齐的训练样本,其中多样化的真实世界无人机视频与精确的6-DoF相机轨迹和细粒度的自然语言描述紧密结合。为了构建数据集,我们开发了一个自动化的多阶段处理流程,该流程集成了基于CLIP的相关性过滤、时间分割、用于轨迹恢复的鲁棒视觉SLAM以及大型语言模型驱动的语义标注。大量的实验表明,结合这种语义和几何对齐的标注有效地提高了现有世界模型模拟复杂3D动态和处理大视点变化的能力,从而有利于复杂环境中无人机智能体的决策和规划。该数据集已在https://github.com/Thelegendzz/MotionScape上公开。

🔬 方法详解

问题定义:现有世界模型在处理无人机视角下的高动态场景时,由于缺乏包含真实6-DoF运动的数据集,难以维持时空物理一致性,导致预测精度下降,影响无人机的自主导航和决策。

核心思路:通过构建一个大规模、包含真实无人机飞行视频的数据集MotionScape,并结合精确的相机轨迹和语义标注,为世界模型提供更丰富的训练数据,从而提升其在复杂动态场景下的预测能力。

技术框架:MotionScape数据集的构建流程包含以下几个主要阶段:1) 基于CLIP的相关性过滤,筛选出与无人机飞行相关的视频片段;2) 时间分割,将视频分割成更小的片段;3) 使用鲁棒视觉SLAM进行轨迹恢复,获得精确的6-DoF相机轨迹;4) 使用大型语言模型进行语义标注,为视频片段添加自然语言描述。

关键创新:MotionScape数据集的关键创新在于其大规模、高动态和语义几何对齐的特性。它不仅包含了大量的真实无人机飞行视频,而且还提供了精确的6-DoF相机轨迹和细粒度的自然语言描述,从而为世界模型提供了更丰富的训练信息。此外,自动化的多阶段处理流程也提高了数据集构建的效率和质量。

关键设计:在数据集构建过程中,使用了CLIP模型进行相关性过滤,以确保数据集包含与无人机飞行相关的视频片段。视觉SLAM算法用于精确恢复相机轨迹。大型语言模型用于生成细粒度的自然语言描述。这些技术细节共同保证了数据集的质量和可用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用MotionScape数据集训练的世界模型在模拟复杂3D动态和处理大视点变化方面表现出显著的提升。具体而言,与使用现有数据集训练的模型相比,使用MotionScape训练的模型在预测精度、时空一致性和鲁棒性方面均有明显改善,从而提高了无人机在复杂环境中的决策和规划能力。

🎯 应用场景

MotionScape数据集可广泛应用于无人机自主导航、环境感知、目标跟踪、避障等领域。通过使用MotionScape训练世界模型,可以提升无人机在复杂环境中的适应性和鲁棒性,使其能够更好地完成各种任务,例如物流配送、环境监测、灾害救援等。该数据集的发布将促进无人机智能化的发展。

📄 摘要(原文)

Recent advances in world models have demonstrated strong capabilities in simulating physical reality, making them an increasingly important foundation for embodied intelligence. For UAV agents in particular, accurate prediction of complex 3D dynamics is essential for autonomous navigation and robust decision-making in unconstrained environments. However, under the highly dynamic camera trajectories typical of UAV views, existing world models often struggle to maintain spatiotemporal physical consistency. A key reason lies in the distribution bias of current training data: most existing datasets exhibit restricted 2.5D motion patterns, such as ground-constrained autonomous driving scenes or relatively smooth human-centric egocentric videos, and therefore lack realistic high-dynamic 6-DoF UAV motion priors. To address this gap, we present MotionScape, a large-scale real-world UAV-view video dataset with highly dynamic motion for world modeling. MotionScape contains over 30 hours of 4K UAV-view videos, totaling more than 4.5M frames. This novel dataset features semantically and geometrically aligned training samples, where diverse real-world UAV videos are tightly coupled with accurate 6-DoF camera trajectories and fine-grained natural language descriptions. To build the dataset, we develop an automated multi-stage processing pipeline that integrates CLIP-based relevance filtering, temporal segmentation, robust visual SLAM for trajectory recovery, and large-language-model-driven semantic annotation. Extensive experiments show that incorporating such semantically and geometrically aligned annotations effectively improves the ability of existing world models to simulate complex 3D dynamics and handle large viewpoint shifts, thereby benefiting decision-making and planning for UAV agents in complex environments. The dataset is publicly available at https://github.com/Thelegendzz/MotionScape