GAZE:Governance-Aware pre-annotation for Zero-shot World Model Environments

作者: Leela Krishna, Mengyang Zhao, Saicharithreddy Pasula, Harshit Rajgarhia, Abhishek Mukherji

分类: cs.CV, cs.AI

发布日期: 2025-10-07

💡 一句话要点

GAZE：面向零样本世界模型的治理感知预标注流水线

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱三：空间感知与语义 (Perception & Semantics) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 世界模型 预标注 自动化标注 多模态数据 隐私保护 数据治理 长视频处理

📋 核心要点

世界模型训练需要大规模、精确标注的多模态数据集，而人工标注效率低、成本高是瓶颈。
GAZE流水线通过AI模型自动预标注，并整合隐私保护和监管链元数据，生成高质量训练数据。
GAZE显著提升了标注效率，减少人工审核量，并生成高保真、隐私感知的数据集。

📝 摘要（中文）

本文提出了一种名为GAZE的流水线，用于自动将原始长视频转换为富含信息的、可用于世界模型训练的标注数据。该系统首先将专有的360度视频格式标准化为标准视图并分片以进行并行处理；然后应用一系列AI模型（场景理解、目标跟踪、音频转录、PII/NSFW/未成年人检测）进行密集的、多模态的预标注；最后将这些信号整合为结构化的输出，以便快速的人工验证。GAZE工作流程显著提高了效率（每小时节省约19分钟的审核时间），并通过保守地自动跳过低显著性片段，减少了80%以上的人工审核量。该方法在提高标签密度和一致性的同时，集成了隐私保护措施和监管链元数据，从而生成可直接用于学习跨模态动态和动作条件预测的高保真、隐私感知数据集。本文详细介绍了流程编排、模型选择和数据字典，为生成高质量的世界模型训练数据提供了一个可扩展的蓝图，且不牺牲吞吐量或治理。

🔬 方法详解

问题定义：世界模型需要大量标注数据进行训练，但人工标注成本高、效率低，且难以保证数据质量和隐私安全。现有方法难以兼顾标注效率、数据质量和隐私保护。

核心思路：利用AI模型进行自动预标注，减少人工干预，提高标注效率。同时，通过隐私检测和监管链元数据，保证数据安全和可追溯性。核心在于构建一个自动化、可扩展、治理感知的标注流水线。

技术框架：GAZE流水线包含以下主要模块：1) 360度视频标准化和分片；2) AI模型预标注（场景理解、目标跟踪、音频转录、PII/NSFW/未成年人检测）；3) 标注信号整合和结构化输出；4) 人工验证和修正。

关键创新：GAZE的关键创新在于：1) 自动化预标注流程，显著减少人工干预；2) 集成隐私保护和监管链元数据，保证数据安全；3) 针对世界模型训练定制的数据格式和标注规范。

关键设计：GAZE的关键设计包括：1) 针对不同模态数据选择合适的AI模型；2) 设计保守的自动跳过策略，减少人工审核量；3) 定义清晰的数据字典和标注规范，保证数据一致性；4) 采用并行处理和分布式架构，提高吞吐量。

🖼️ 关键图片

📊 实验亮点

GAZE流水线显著提高了标注效率，每小时节省约19分钟的审核时间，并减少了80%以上的人工审核量。通过自动化预标注和隐私保护，生成了高保真、隐私感知的数据集，为世界模型训练提供了有力支持。这些结果表明，GAZE是一种高效、安全、可扩展的标注解决方案。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶、虚拟现实等领域，为这些领域的世界模型训练提供高质量、低成本的数据支持。通过自动化标注和隐私保护，可以加速相关技术的发展和应用，并降低数据安全风险。未来，该方法有望扩展到更多模态的数据标注，并应用于更广泛的人工智能任务。

📄 摘要（原文）

Training robust world models requires large-scale, precisely labeled multimodal datasets, a process historically bottlenecked by slow and expensive manual annotation. We present a production-tested GAZE pipeline that automates the conversion of raw, long-form video into rich, task-ready supervision for world-model training. Our system (i) normalizes proprietary 360-degree formats into standard views and shards them for parallel processing; (ii) applies a suite of AI models (scene understanding, object tracking, audio transcription, PII/NSFW/minor detection) for dense, multimodal pre-annotation; and (iii) consolidates signals into a structured output specification for rapid human validation. The GAZE workflow demonstrably yields efficiency gains (~19 minutes saved per review hour) and reduces human review volume by >80% through conservative auto-skipping of low-salience segments. By increasing label density and consistency while integrating privacy safeguards and chain-of-custody metadata, our method generates high-fidelity, privacy-aware datasets directly consumable for learning cross-modal dynamics and action-conditioned prediction. We detail our orchestration, model choices, and data dictionary to provide a scalable blueprint for generating high-quality world model training data without sacrificing throughput or governance.

GAZE:Governance-Aware pre-annotation for Zero-shot World Model Environments

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理