SceneScribe-1M: A Large-Scale Video Dataset with Comprehensive Geometric and Semantic Annotations

作者: Yunnan Wang, Kecheng Zheng, Jianyuan Wang, Minghao Chen, David Novotny, Christian Rupprecht, Yinghao Xu, Xing Zhu, Wenjun Zeng, Xin Jin, Yujun Shen

分类: cs.CV

发布日期: 2026-04-09

备注: Accepted by CVPR 2026

💡 一句话要点

SceneScribe-1M：大规模几何与语义标注视频数据集，促进3D感知与视频生成融合。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视频数据集 3D感知 视频生成 多模态标注 场景理解

📋 核心要点

现有数据集在3D理解或视频生成方面有所进展，但缺乏统一资源来支持这两个领域的大规模研究。
SceneScribe-1M通过提供包含文本描述、相机参数、深度图和3D点轨迹的大规模视频数据集来解决这一问题。
论文在多个下游任务上建立了基准，证明了数据集的价值，并为未来的研究提供了基础。

📝 摘要（中文）

为了弥合3D几何感知和视频合成领域对大规模、富含语义和时空信息的视频数据的需求缺口，论文提出了SceneScribe-1M，一个全新的大规模多模态视频数据集。该数据集包含一百万个真实场景视频，每个视频都经过精心标注，包括详细的文本描述、精确的相机参数、稠密的深度图以及一致的3D点轨迹。论文通过在单目深度估计、场景重建、动态点跟踪以及文本到视频合成等下游任务上建立基准，展示了SceneScribe-1M的多功能性和价值。通过开源SceneScribe-1M，旨在为研究提供一个全面的基准和催化剂，促进能够感知动态3D世界并生成可控、逼真视频内容的模型的发展。

🔬 方法详解

问题定义：现有数据集无法同时满足3D几何感知和视频生成对大规模、高质量、多模态数据的需求。缺乏统一的数据集阻碍了这两个领域的交叉研究和发展，限制了模型在理解和生成动态3D场景方面的能力。

核心思路：论文的核心思路是构建一个大规模的视频数据集，该数据集不仅包含丰富的视觉信息，还提供精确的几何和语义标注。通过提供详细的相机参数、深度图和3D点轨迹，使得模型能够学习场景的3D结构和动态变化，从而促进3D感知和视频生成任务的融合。

技术框架：SceneScribe-1M数据集包含一百万个真实场景视频，每个视频都配有以下标注：详细的文本描述，用于描述场景的内容和动作；精确的相机参数，用于重建场景的3D结构；稠密的深度图，提供场景的深度信息；一致的3D点轨迹，用于跟踪场景中物体的运动。该数据集可以用于训练和评估各种下游任务的模型，例如单目深度估计、场景重建、动态点跟踪以及文本到视频合成。

关键创新：SceneScribe-1M的关键创新在于其规模和多模态标注的结合。与现有数据集相比，SceneScribe-1M提供了更大规模的视频数据，并且每个视频都配有多种类型的标注，包括文本描述、相机参数、深度图和3D点轨迹。这种多模态标注使得模型能够学习场景的更全面的表示，从而提高其在各种下游任务上的性能。

关键设计：数据集的构建和标注过程未知，论文中没有详细描述。推测可能使用了自动化和人工标注相结合的方法，以保证标注的质量和一致性。具体参数设置、损失函数和网络结构取决于下游任务，论文中没有提供统一的设置。

🖼️ 关键图片

📊 实验亮点

论文通过在单目深度估计、场景重建、动态点跟踪以及文本到视频合成等多个下游任务上建立基准，验证了SceneScribe-1M数据集的有效性。具体的性能数据和提升幅度未知，但论文强调该数据集为这些任务提供了新的基准，并促进了相关领域的研究。

🎯 应用场景

SceneScribe-1M数据集的应用场景广泛，包括自动驾驶、机器人导航、虚拟现实、增强现实、电影制作等领域。该数据集可以用于训练模型，使其能够理解和生成动态3D场景，从而实现更智能、更逼真的应用。例如，在自动驾驶领域，该数据集可以用于训练车辆识别和跟踪行人、车辆等目标，并预测它们的运动轨迹。在虚拟现实领域，该数据集可以用于生成逼真的3D场景，并允许用户与场景中的物体进行交互。

📄 摘要（原文）

The convergence of 3D geometric perception and video synthesis has created an unprecedented demand for large-scale video data that is rich in both semantic and spatio-temporal information. While existing datasets have advanced either 3D understanding or video generation, a significant gap remains in providing a unified resource that supports both domains at scale. To bridge this chasm, we introduce SceneScribe-1M, a new large-scale, multi-modal video dataset. It comprises one million in-the-wild videos, each meticulously annotated with detailed textual descriptions, precise camera parameters, dense depth maps, and consistent 3D point tracks. We demonstrate the versatility and value of SceneScribe-1M by establishing benchmarks across a wide array of downstream tasks, including monocular depth estimation, scene reconstruction, and dynamic point tracking, as well as generative tasks such as text-to-video synthesis, with or without camera control. By open-sourcing SceneScribe-1M, we aim to provide a comprehensive benchmark and a catalyst for research, fostering the development of models that can both perceive the dynamic 3D world and generate controllable, realistic video content.

SceneScribe-1M: A Large-Scale Video Dataset with Comprehensive Geometric and Semantic Annotations

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理