Human Mobility Datasets Enriched With Contextual and Social Dimensions

📄 arXiv: 2510.02333v2 📥 PDF

作者: Chiara Pugliese, Francesco Lettich, Guido Rocchietti, Chiara Renso, Fabio Pinelli

分类: cs.CL, cs.AI, cs.SI

发布日期: 2025-09-26 (更新: 2025-12-04)

备注: 5 pages, 3 figures, 1 table


💡 一句话要点

提出一种结合上下文、社交维度和LLM生成数据的城市人群移动数据集构建方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 人群移动 轨迹数据 语义增强 大型语言模型 社交媒体 知识图谱 RDF

📋 核心要点

  1. 现有的人群移动数据集缺乏丰富的语义信息,难以支持复杂行为分析和预测。
  2. 该研究提出一种流程,通过整合上下文信息、社交媒体数据和LLM生成内容来丰富人群轨迹数据。
  3. 构建了巴黎和纽约两个城市的数据集,并以表格和RDF格式提供,方便研究人员使用。

📝 摘要(中文)

本文介绍两个公开可用的、语义增强的人群轨迹数据集,以及构建它们的流程。这些轨迹是来自OpenStreetMap的公开GPS轨迹。每个数据集都包含上下文层,如停留点、移动轨迹、兴趣点(POI)、推断的交通方式和天气数据。一个新颖的语义特征是包含了由大型语言模型(LLM)生成的合成、逼真的社交媒体帖子,从而实现多模态和语义移动性分析。这些数据集以表格和资源描述框架(RDF)格式提供,支持语义推理和FAIR数据实践。它们涵盖了两个结构迥异的大城市:巴黎和纽约。我们的开源可复现流程允许数据集定制,而这些数据集支持行为建模、移动性预测、知识图谱构建和基于LLM的应用等研究任务。据我们所知,我们的资源是第一个在可重用框架中结合真实世界运动、结构化语义增强、LLM生成的文本和语义网兼容性的资源。

🔬 方法详解

问题定义:现有的人群移动数据集通常只包含GPS坐标等基本信息,缺乏对用户行为、环境因素和社会交互的深入理解。这限制了对人群移动模式的建模和预测,以及在城市规划、交通管理等领域的应用。现有方法难以有效地整合多源异构数据,并将其转化为可用于分析的语义信息。

核心思路:该研究的核心思路是通过整合多种数据源,包括GPS轨迹、兴趣点信息、天气数据和社交媒体数据,来丰富人群轨迹的语义信息。利用大型语言模型(LLM)生成逼真的社交媒体帖子,模拟用户的社交行为,从而增强数据集的真实性和可用性。通过将数据转换为RDF格式,支持语义推理和知识图谱构建。

技术框架:该研究的整体框架包括以下几个主要模块:1) GPS轨迹数据获取与预处理;2) 上下文信息(如兴趣点、天气)的整合;3) 基于LLM的社交媒体帖子生成;4) 数据格式转换(表格和RDF);5) 数据集发布与维护。该流程是开源且可复现的,允许用户根据自己的需求进行定制。

关键创新:该研究的关键创新在于将真实世界运动数据、结构化语义增强、LLM生成的文本和语义网兼容性结合在一个可重用的框架中。这是首次尝试将LLM生成的社交媒体数据与人群移动轨迹相结合,为多模态移动性分析提供了新的可能性。

关键设计:LLM的选择和prompt的设计是关键。研究人员需要选择合适的LLM,并设计有效的prompt,以生成与用户移动轨迹相关的、逼真的社交媒体帖子。此外,RDF模式的设计也至关重要,需要能够有效地表达人群移动轨迹的语义信息,并支持语义推理。

📊 实验亮点

该研究构建了巴黎和纽约两个城市的大规模人群移动数据集,并以表格和RDF两种格式提供。通过整合上下文信息和LLM生成的社交媒体数据,显著丰富了人群轨迹的语义信息。该数据集的开源和可复现性,为相关领域的研究人员提供了宝贵的资源。

🎯 应用场景

该研究成果可广泛应用于城市规划、交通管理、公共安全、商业选址等领域。例如,可以利用该数据集进行人群行为建模,预测交通拥堵,优化公共交通线路,评估商业活动的潜在影响,以及识别潜在的安全风险。未来,该数据集可以与其他类型的城市数据相结合,构建更全面的城市知识图谱,为智慧城市建设提供支持。

📄 摘要(原文)

In this resource paper, we present two publicly available datasets of semantically enriched human trajectories, together with the pipeline to build them. The trajectories are publicly available GPS traces retrieved from OpenStreetMap. Each dataset includes contextual layers such as stops, moves, points of interest (POIs), inferred transportation modes, and weather data. A novel semantic feature is the inclusion of synthetic, realistic social media posts generated by Large Language Models (LLMs), enabling multimodal and semantic mobility analysis. The datasets are available in both tabular and Resource Description Framework (RDF) formats, supporting semantic reasoning and FAIR data practices. They cover two structurally distinct, large cities: Paris and New York. Our open source reproducible pipeline allows for dataset customization, while the datasets support research tasks such as behavior modeling, mobility prediction, knowledge graph construction, and LLM-based applications. To our knowledge, our resource is the first to combine real-world movement, structured semantic enrichment, LLM-generated text, and semantic web compatibility in a reusable framework.