Action100M: A Large-scale Video Action Dataset

作者: Delong Chen, Tejaswi Kasarla, Yejin Bang, Mustafa Shukor, Willy Chung, Jade Yu, Allen Bolourchi, Theo Moutakanni, Pascale Fung

分类: cs.CV

发布日期: 2026-01-15

💡 一句话要点

提出Action100M大规模视频动作数据集，促进视频理解和世界建模研究。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 视频动作识别 大规模数据集 自监督学习 视频理解 世界建模

📋 核心要点

现有视频动作数据集规模有限，难以支持开放词汇和复杂场景下的动作理解。
论文提出Action100M数据集，利用全自动流程从互联网视频中提取并标注大规模动作片段。
实验表明，在Action100M上训练的模型在多个动作识别基准测试中表现出强大的零样本性能。

📝 摘要（中文）

本文介绍Action100M，一个大规模数据集，由120万个互联网教学视频（总时长14.6年）构建而成，包含约1亿个时间局部化的片段，具有开放词汇的动作监督和丰富的字幕。Action100M通过全自动流程生成，该流程包括：(i) 使用V-JEPA 2嵌入进行分层时间分割，(ii) 生成组织为字幕树的多级帧和片段字幕，以及 (iii) 在多轮自精炼程序下，使用推理模型（GPT-OSS-120B）聚合证据，以输出结构化注释（简短/详细的动作、演员、简短/详细的字幕）。在Action100M上训练VL-JEPA展示了持续的数据规模改进，并在各种动作识别基准测试中表现出强大的零样本性能，从而将Action100M确立为视频理解和世界建模中可扩展研究的新基础。

🔬 方法详解

问题定义：现有视频动作数据集在规模、开放词汇和标注质量方面存在不足，限制了模型在复杂场景下的泛化能力。特别是，缺乏能够支持开放词汇动作识别和世界建模的大规模数据集。

核心思路：论文的核心思路是利用互联网上的教学视频资源，通过全自动化的流程生成大规模、高质量的视频动作数据集。通过分层时间分割、多级字幕生成和自精炼推理，实现对视频片段的精确标注。

技术框架：Action100M的生成流程主要包含三个阶段：(1) 使用V-JEPA 2嵌入进行分层时间分割，将视频分割成具有语义意义的片段。(2) 生成多级帧和片段字幕，构建字幕树，提供丰富的上下文信息。(3) 使用GPT-OSS-120B等大型语言模型进行多轮自精炼，聚合证据，输出结构化的动作、演员和字幕注释。

关键创新：该方法最大的创新在于其全自动化的数据生成流程，能够高效地从海量互联网视频中提取并标注高质量的动作片段。自精炼过程利用大型语言模型的推理能力，显著提升了标注的准确性和一致性。

关键设计：V-JEPA 2嵌入用于视频分割，能够捕捉视频中的时间依赖关系。字幕树结构能够提供多层次的上下文信息，有助于动作理解。GPT-OSS-120B等大型语言模型用于自精炼，能够利用其强大的语言理解和推理能力，提升标注质量。多轮自精炼过程通过迭代优化，逐步提升标注的准确性和一致性。

🖼️ 关键图片

📊 实验亮点

在Action100M上训练的VL-JEPA模型在多个动作识别基准测试中表现出强大的零样本性能，证明了该数据集的有效性。实验结果表明，随着数据规模的增加，模型的性能持续提升，表明Action100M为可扩展的视频理解研究奠定了基础。

🎯 应用场景

Action100M数据集可广泛应用于视频理解、机器人学习、人机交互等领域。例如，可以用于训练能够识别和理解复杂动作的智能体，提升机器人在真实世界中的操作能力。此外，该数据集还可以促进视频内容分析、智能监控等应用的发展。

📄 摘要（原文）

Inferring physical actions from visual observations is a fundamental capability for advancing machine intelligence in the physical world. Achieving this requires large-scale, open-vocabulary video action datasets that span broad domains. We introduce Action100M, a large-scale dataset constructed from 1.2M Internet instructional videos (14.6 years of duration), yielding O(100 million) temporally localized segments with open-vocabulary action supervision and rich captions. Action100M is generated by a fully automated pipeline that (i) performs hierarchical temporal segmentation using V-JEPA 2 embeddings, (ii) produces multi-level frame and segment captions organized as a Tree-of-Captions, and (iii) aggregates evidence with a reasoning model (GPT-OSS-120B) under a multi-round Self-Refine procedure to output structured annotations (brief/detailed action, actor, brief/detailed caption). Training VL-JEPA on Action100M demonstrates consistent data-scaling improvements and strong zero-shot performance across diverse action recognition benchmarks, establishing Action100M as a new foundation for scalable research in video understanding and world modeling.

Action100M: A Large-scale Video Action Dataset

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理