Bridging the Data Provenance Gap Across Text, Speech and Video
作者: Shayne Longpre, Nikhil Singh, Manuel Cherep, Kushagra Tiwary, Joanna Materzynska, William Brannon, Robert Mahari, Naana Obeng-Marnu, Manan Dey, Mohammed Hamdy, Nayan Saxena, Ahmad Mustafa Anis, Emad A. Alghamdi, Vu Minh Chien, Da Yin, Kun Qian, Yizhi Li, Minnie Liang, An Dinh, Shrestha Mohanty, Deividas Mataciunas, Tobin South, Jianguo Zhang, Ariel N. Lee, Campbell S. Lund, Christopher Klamm, Damien Sileo, Diganta Misra, Enrico Shippole, Kevin Klyman, Lester JV Miranda, Niklas Muennighoff, Seonghyeon Ye, Seungone Kim, Vipul Gupta, Vivek Sharma, Xuhui Zhou, Caiming Xiong, Luis Villa, Stella Biderman, Alex Pentland, Sara Hooker, Jad Kabbara
分类: cs.AI, cs.CL, cs.CY, cs.LG, cs.MM
发布日期: 2024-12-19 (更新: 2025-02-19)
备注: ICLR 2025. 10 pages, 5 figures (main paper)
💡 一句话要点
大规模多模态数据集溯源分析,揭示数据来源、限制与代表性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态数据集 数据溯源 数据审计 数据偏差 负责任AI
📋 核心要点
- 现有AI数据集分析主要集中于文本,缺乏对多模态数据(语音、视频)的全面溯源分析,难以评估数据质量和潜在偏差。
- 通过大规模审计,追踪数据集的来源、使用限制、地理和语言代表性,揭示多模态数据集中存在的潜在问题。
- 审计结果表明,多模态数据过度依赖网络爬取和社交媒体,存在非商业限制,且地理和语言代表性提升有限。
📝 摘要(中文)
人工智能的进步主要由训练数据的规模和质量驱动。然而,除了文本数据外,对已建立数据集属性的实证分析仍然不足。本文对文本、语音和视频等多种模态的流行数据集进行了首次大规模纵向审计,涵盖了详细的来源趋势、使用限制以及地理和语言表示。手动分析了1990-2024年间近4000个公共数据集,涉及608种语言、798个来源、659个组织和67个国家。研究发现,多模态机器学习应用主要依赖网络爬取、合成数据和社交媒体平台(如YouTube)作为训练集,自2019年以来超过了所有其他来源。其次,追溯数据集的衍生链发现,虽然只有不到33%的数据集受到严格许可限制,但广泛使用的文本、语音和视频数据集中超过80%的源内容带有非商业限制。最后,尽管公共AI训练数据集中代表的语言和地理数量不断增加,但审计表明,自2013年以来,相对地理和多语言表示的指标未能显著改善其覆盖范围。这项审计能够从生态系统层面实证地检验数据来源、限制和西方中心主义的趋势,而对这些问题的可见性对于负责任的人工智能的进步至关重要。作为对数据集透明度和负责任使用方面持续改进的贡献,发布了整个多模态审计结果,使从业者能够追踪文本、语音和视频中的数据来源。
🔬 方法详解
问题定义:当前AI领域的数据集分析存在局限性,主要集中在文本数据上,缺乏对语音、视频等多模态数据的全面、系统的溯源分析。这导致我们对这些数据集的质量、潜在偏差以及使用限制缺乏充分的了解。现有方法难以追踪数据集的来源,无法评估其地理和语言代表性,从而阻碍了负责任AI的发展。
核心思路:本文的核心思路是通过大规模的审计,对文本、语音和视频等多种模态的流行数据集进行纵向分析。通过手动分析大量数据集,追踪其来源、使用限制、地理和语言代表性,从而揭示多模态数据集中存在的潜在问题。这种方法旨在提高数据集的透明度,促进负责任AI的发展。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据集收集:收集1990-2024年间的公共数据集,涵盖文本、语音和视频等多种模态。2) 数据集分析:手动分析数据集的来源、使用限制、地理和语言代表性等属性。3) 趋势分析:分析数据集来源、限制和代表性的变化趋势。4) 结果发布:发布审计结果,供从业者追踪数据来源。
关键创新:该研究的关键创新在于:1) 首次对多模态数据集进行大规模纵向审计,填补了该领域的空白。2) 揭示了多模态数据集过度依赖网络爬取和社交媒体,存在非商业限制,且地理和语言代表性提升有限等问题。3) 发布了审计结果,为从业者提供了追踪数据来源的工具。
关键设计:该研究的关键设计包括:1) 手动分析近4000个公共数据集,确保分析的准确性。2) 涵盖608种语言、798个来源、659个组织和67个国家,确保分析的全面性。3) 追踪数据集的衍生链,揭示数据来源的复杂性。4) 分析数据集的地理和语言代表性,评估其潜在的偏差。
🖼️ 关键图片
📊 实验亮点
该研究审计了近4000个公共数据集,发现自2019年以来,多模态机器学习应用主要依赖网络爬取、合成数据和社交媒体平台。此外,超过80%的源内容带有非商业限制,且自2013年以来,数据集的地理和语言代表性提升有限。
🎯 应用场景
该研究成果可应用于提升AI数据集的透明度和可追溯性,帮助研究人员和开发者选择更可靠、更具代表性的训练数据。同时,该研究可以促进负责任AI的开发,减少数据偏差带来的负面影响,并推动多语言和跨文化AI应用的发展。
📄 摘要(原文)
Progress in AI is driven largely by the scale and quality of training data. Despite this, there is a deficit of empirical analysis examining the attributes of well-established datasets beyond text. In this work we conduct the largest and first-of-its-kind longitudinal audit across modalities--popular text, speech, and video datasets--from their detailed sourcing trends and use restrictions to their geographical and linguistic representation. Our manual analysis covers nearly 4000 public datasets between 1990-2024, spanning 608 languages, 798 sources, 659 organizations, and 67 countries. We find that multimodal machine learning applications have overwhelmingly turned to web-crawled, synthetic, and social media platforms, such as YouTube, for their training sets, eclipsing all other sources since 2019. Secondly, tracing the chain of dataset derivations we find that while less than 33% of datasets are restrictively licensed, over 80% of the source content in widely-used text, speech, and video datasets, carry non-commercial restrictions. Finally, counter to the rising number of languages and geographies represented in public AI training datasets, our audit demonstrates measures of relative geographical and multilingual representation have failed to significantly improve their coverage since 2013. We believe the breadth of our audit enables us to empirically examine trends in data sourcing, restrictions, and Western-centricity at an ecosystem-level, and that visibility into these questions are essential to progress in responsible AI. As a contribution to ongoing improvements in dataset transparency and responsible use, we release our entire multimodal audit, allowing practitioners to trace data provenance across text, speech, and video.