Human Mobility Datasets Enriched With Contextual and Social Dimensions
作者: Chiara Pugliese, Francesco Lettich, Guido Rocchietti, Chiara Renso, Fabio Pinelli
分类: cs.CL, cs.AI, cs.SI
发布日期: 2025-09-26 (更新: 2026-01-12)
备注: 5 pages, 3 figures, 1 table
💡 一句话要点
提出一种结合上下文、社交维度和LLM生成数据的城市人类移动数据集构建框架。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人类移动 数据集 语义增强 大型语言模型 社交媒体 知识图谱 城市计算
📋 核心要点
- 现有移动数据集缺乏丰富的语义信息,难以支持深入的行为分析和预测。
- 该研究提出一个框架,通过整合上下文信息、社交媒体数据和LLM生成文本来丰富移动数据集。
- 构建了巴黎和纽约两个数据集,并验证了其在行为建模、移动预测等任务中的有效性。
📝 摘要(中文)
本文介绍两个公开可用的、语义增强的人类轨迹数据集,以及构建它们的流程。这些轨迹是来自OpenStreetMap的公开GPS轨迹。每个数据集都包含上下文层,如停留点、移动、兴趣点(POI)、推断的交通方式和天气数据。一个新颖的语义特征是包含由大型语言模型(LLM)生成的合成、逼真的社交媒体帖子,从而实现多模态和语义移动分析。数据集以表格和资源描述框架(RDF)格式提供,支持语义推理和FAIR数据实践。它们涵盖了两个结构不同的特大城市:巴黎和纽约。我们的开源可复现流程允许数据集定制,而数据集支持行为建模、移动预测、知识图谱构建和基于LLM的应用等研究任务。据我们所知,我们的资源是第一个在可重用框架中结合真实世界运动、结构化语义增强、LLM生成的文本和语义网兼容性的资源。
🔬 方法详解
问题定义:现有的人类移动数据集通常只包含GPS轨迹等基本信息,缺乏丰富的上下文语义信息,例如兴趣点、交通方式、社交互动等。这限制了对人类移动行为的深入理解和预测,也难以支持基于位置的社交应用和推荐系统。现有方法难以有效地整合多种来源的数据,并生成高质量的社交媒体文本。
核心思路:该研究的核心思路是通过一个可复现的流程,将来自不同来源的数据(例如OpenStreetMap、天气数据、社交媒体)整合到人类移动轨迹数据中,并利用大型语言模型(LLM)生成逼真的社交媒体文本,从而丰富数据集的语义信息。通过提供表格和RDF两种格式,支持不同的数据分析和推理需求。
技术框架:该框架包含以下主要模块:1) GPS轨迹数据获取与预处理;2) 上下文信息提取,包括停留点检测、移动模式识别、兴趣点关联、天气数据整合;3) 社交媒体数据生成,利用LLM根据位置和时间信息生成逼真的社交媒体文本;4) 数据格式转换,将数据转换为表格和RDF格式,方便存储和查询。
关键创新:该研究的关键创新在于:1) 首次将LLM生成的社交媒体文本整合到人类移动数据集中,为多模态移动分析提供了新的数据来源;2) 提供了一个开源可复现的流程,方便用户根据自己的需求定制数据集;3) 同时提供表格和RDF两种数据格式,支持不同的数据分析和推理需求。
关键设计:在社交媒体数据生成方面,使用了预训练的LLM,并根据位置和时间信息对LLM的输出进行约束,以保证生成文本的真实性和相关性。在RDF数据格式方面,使用了标准的语义网技术,例如OWL和RDF Schema,以保证数据的互操作性和可扩展性。具体参数设置和损失函数等细节未在论文中详细描述。
🖼️ 关键图片
📊 实验亮点
该研究构建了巴黎和纽约两个大规模的、语义增强的人类移动数据集。通过实验验证,该数据集可以有效地支持行为建模、移动预测、知识图谱构建和基于LLM的应用等研究任务。具体性能数据和对比基线未在摘要中给出,需要查阅论文全文。
🎯 应用场景
该研究成果可应用于城市规划、交通管理、公共安全、社交推荐等领域。例如,可以利用该数据集进行人群流动预测,优化交通路线;可以分析不同区域的社交活动,为商家提供选址建议;可以识别异常行为模式,预防犯罪事件。未来,该数据集可以扩展到更多城市,并整合更多类型的数据,例如用户画像、环境数据等,以支持更广泛的应用。
📄 摘要(原文)
In this resource paper, we present two publicly available datasets of semantically enriched human trajectories, together with the pipeline to build them. The trajectories are publicly available GPS traces retrieved from OpenStreetMap. Each dataset includes contextual layers such as stops, moves, points of interest (POIs), inferred transportation modes, and weather data. A novel semantic feature is the inclusion of synthetic, realistic social media posts generated by Large Language Models (LLMs), enabling multimodal and semantic mobility analysis. The datasets are available in both tabular and Resource Description Framework (RDF) formats, supporting semantic reasoning and FAIR data practices. They cover two structurally distinct, large cities: Paris and New York. Our open source reproducible pipeline allows for dataset customization, while the datasets support research tasks such as behavior modeling, mobility prediction, knowledge graph construction, and LLM-based applications. To our knowledge, our resource is the first to combine real-world movement, structured semantic enrichment, LLM-generated text, and semantic web compatibility in a reusable framework.