SceneScribe-1M: A Large-Scale Video Dataset with Comprehensive Geometric and Semantic Annotations
作者: Yunnan Wang, Kecheng Zheng, Jianyuan Wang, Minghao Chen, David Novotny, Christian Rupprecht, Yinghao Xu, Xing Zhu, Wenjun Zeng, Xin Jin, Yujun Shen
分类: cs.CV
发布日期: 2026-04-09
备注: Accepted by CVPR 2026
💡 一句话要点
SceneScribe-1M:大规模几何与语义标注视频数据集,促进3D感知与视频生成融合。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视频数据集 3D感知 视频生成 多模态标注 场景理解
📋 核心要点
- 现有数据集在3D理解或视频生成方面有所进展,但缺乏统一资源来支持这两个领域的大规模研究。
- SceneScribe-1M通过提供包含文本描述、相机参数、深度图和3D点轨迹的大规模视频数据集来解决这一问题。
- 论文在多个下游任务上建立了基准,证明了数据集的价值,并为未来的研究提供了基础。
📝 摘要(中文)
为了弥合3D几何感知和视频合成领域对大规模、富含语义和时空信息的视频数据的需求缺口,论文提出了SceneScribe-1M,一个全新的大规模多模态视频数据集。该数据集包含一百万个真实场景视频,每个视频都经过精心标注,包括详细的文本描述、精确的相机参数、稠密的深度图以及一致的3D点轨迹。论文通过在单目深度估计、场景重建、动态点跟踪以及文本到视频合成等下游任务上建立基准,展示了SceneScribe-1M的多功能性和价值。通过开源SceneScribe-1M,旨在为研究提供一个全面的基准和催化剂,促进能够感知动态3D世界并生成可控、逼真视频内容的模型的发展。
🔬 方法详解
问题定义:现有数据集无法同时满足3D几何感知和视频生成对大规模、高质量、多模态数据的需求。缺乏统一的数据集阻碍了这两个领域的交叉研究和发展,限制了模型在理解和生成动态3D场景方面的能力。
核心思路:论文的核心思路是构建一个大规模的视频数据集,该数据集不仅包含丰富的视觉信息,还提供精确的几何和语义标注。通过提供详细的相机参数、深度图和3D点轨迹,使得模型能够学习场景的3D结构和动态变化,从而促进3D感知和视频生成任务的融合。
技术框架:SceneScribe-1M数据集包含一百万个真实场景视频,每个视频都配有以下标注:详细的文本描述,用于描述场景的内容和动作;精确的相机参数,用于重建场景的3D结构;稠密的深度图,提供场景的深度信息;一致的3D点轨迹,用于跟踪场景中物体的运动。该数据集可以用于训练和评估各种下游任务的模型,例如单目深度估计、场景重建、动态点跟踪以及文本到视频合成。
关键创新:SceneScribe-1M的关键创新在于其规模和多模态标注的结合。与现有数据集相比,SceneScribe-1M提供了更大规模的视频数据,并且每个视频都配有多种类型的标注,包括文本描述、相机参数、深度图和3D点轨迹。这种多模态标注使得模型能够学习场景的更全面的表示,从而提高其在各种下游任务上的性能。
关键设计:数据集的构建和标注过程未知,论文中没有详细描述。推测可能使用了自动化和人工标注相结合的方法,以保证标注的质量和一致性。具体参数设置、损失函数和网络结构取决于下游任务,论文中没有提供统一的设置。
🖼️ 关键图片
📊 实验亮点
论文通过在单目深度估计、场景重建、动态点跟踪以及文本到视频合成等多个下游任务上建立基准,验证了SceneScribe-1M数据集的有效性。具体的性能数据和提升幅度未知,但论文强调该数据集为这些任务提供了新的基准,并促进了相关领域的研究。
🎯 应用场景
SceneScribe-1M数据集的应用场景广泛,包括自动驾驶、机器人导航、虚拟现实、增强现实、电影制作等领域。该数据集可以用于训练模型,使其能够理解和生成动态3D场景,从而实现更智能、更逼真的应用。例如,在自动驾驶领域,该数据集可以用于训练车辆识别和跟踪行人、车辆等目标,并预测它们的运动轨迹。在虚拟现实领域,该数据集可以用于生成逼真的3D场景,并允许用户与场景中的物体进行交互。
📄 摘要(原文)
The convergence of 3D geometric perception and video synthesis has created an unprecedented demand for large-scale video data that is rich in both semantic and spatio-temporal information. While existing datasets have advanced either 3D understanding or video generation, a significant gap remains in providing a unified resource that supports both domains at scale. To bridge this chasm, we introduce SceneScribe-1M, a new large-scale, multi-modal video dataset. It comprises one million in-the-wild videos, each meticulously annotated with detailed textual descriptions, precise camera parameters, dense depth maps, and consistent 3D point tracks. We demonstrate the versatility and value of SceneScribe-1M by establishing benchmarks across a wide array of downstream tasks, including monocular depth estimation, scene reconstruction, and dynamic point tracking, as well as generative tasks such as text-to-video synthesis, with or without camera control. By open-sourcing SceneScribe-1M, we aim to provide a comprehensive benchmark and a catalyst for research, fostering the development of models that can both perceive the dynamic 3D world and generate controllable, realistic video content.