CC-GPX: Extracting High-Quality Annotated Geospatial Data from Common Crawl
作者: Ilya Ilyankou, Meihui Wang, Stefano Cavazzi, James Haworth
分类: cs.CL
发布日期: 2024-05-17 (更新: 2024-08-29)
备注: Accepted as a poster to ACM SIGSPATIAL 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出CC-GPX,从Common Crawl中提取高质量带标注的地理空间数据。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 地理空间数据 Common Crawl GPX文件 轨迹提取 多模态数据集
📋 核心要点
- 现有研究缺乏利用Common Crawl作为地理空间数据来源的探索,限制了对大规模户外活动模式的分析。
- 论文提出CC-GPX pipeline,从Common Crawl的GPX文件中提取用户轨迹和描述,构建多模态数据集。
- 该数据集包含1416个轨迹-描述配对,可用于研究户外活动模式、轨迹生成和轨迹标注等任务。
📝 摘要(中文)
Common Crawl (CC)语料库是最大的开放网络爬取数据集,自2008年以来捕获了超过9.5PB的数据。该数据集对于训练大型语言模型至关重要,因此已被研究用于识别(不)良内容,并被提炼成更小的、特定领域的数据集。然而,据我们所知,尚未有研究致力于将CC用作带标注的地理空间数据的来源。在本文中,我们介绍了一种高效的pipeline,用于从CC中发现的GPX文件中提取带标注的用户生成轨迹,并生成了一个包含1,416个配对的多模态数据集,这些配对包括来自最近6个CC版本的用户书写的描述和MultiLineString矢量数据。该数据集可用于研究人们的户外活动模式、人们谈论户外体验的方式,以及用于开发轨迹生成或轨迹标注模型,或用于代替合成生成的路线来解决各种其他问题。我们的可复现代码可在GitHub上找到:https://github.com/ilyankou/cc-gpx
🔬 方法详解
问题定义:现有方法主要依赖于合成数据或小规模数据集进行轨迹生成和标注模型的训练,缺乏大规模真实世界地理空间数据的支持。Common Crawl作为巨大的网络爬取数据集,蕴含着丰富的用户生成地理空间数据,但如何高效地从中提取高质量的带标注数据是一个挑战。
核心思路:论文的核心思路是构建一个高效的pipeline,能够自动从Common Crawl中识别、提取和解析GPX文件,并将GPX文件中的轨迹数据与用户提供的文本描述进行关联,从而构建大规模的带标注地理空间数据集。
技术框架:CC-GPX pipeline主要包含以下几个阶段:1) Common Crawl数据下载与解析;2) GPX文件识别与提取;3) GPX文件解析与轨迹数据提取;4) 用户描述文本提取;5) 轨迹数据与描述文本配对;6) 数据清洗与格式转换。
关键创新:该方法的主要创新在于利用Common Crawl作为地理空间数据的来源,并设计了一个高效的pipeline来实现数据的自动提取和标注。这为地理空间数据分析和模型训练提供了新的数据来源。
关键设计:pipeline的关键设计包括:1) 使用特定的文件签名和文件扩展名来识别GPX文件;2) 使用GPX解析库来提取轨迹点和时间戳等信息;3) 使用启发式规则来提取与轨迹相关的用户描述文本;4) 使用地理空间索引来加速轨迹数据与描述文本的配对。
🖼️ 关键图片
📊 实验亮点
论文构建了一个包含1416个轨迹-描述配对的多模态数据集,这些数据来自Common Crawl的最近6个版本。该数据集为研究人员提供了一个新的资源,可以用于研究户外活动模式、轨迹生成和轨迹标注等任务。该数据集的规模和多样性使其能够训练更鲁棒和泛化的模型。
🎯 应用场景
该研究成果可应用于多个领域,包括:分析人们的户外活动模式,例如徒步、跑步和骑自行车;开发轨迹生成模型,用于生成更真实的户外活动轨迹;构建轨迹标注模型,自动为轨迹添加描述信息;以及用于城市规划、交通管理和环境监测等领域。
📄 摘要(原文)
The Common Crawl (CC) corpus is the largest open web crawl dataset containing 9.5+ petabytes of data captured since 2008. The dataset is instrumental in training large language models, and as such it has been studied for (un)desirable content, and distilled for smaller, domain-specific datasets. However, to our knowledge, no research has been dedicated to using CC as a source of annotated geospatial data. In this paper, we introduce an efficient pipeline to extract annotated user-generated tracks from GPX files found in CC, and the resulting multimodal dataset with 1,416 pairings of human-written descriptions and MultiLineString vector data from the 6 most recent CC releases. The dataset can be used to study people's outdoor activity patterns, the way people talk about their outdoor experiences, as well as for developing trajectory generation or track annotation models, or for various other problems in place of synthetically generated routes. Our reproducible code is available on GitHub: https://github.com/ilyankou/cc-gpx