Urban Mobility Assessment Using LLMs
作者: Prabin Bhandari, Antonios Anastasopoulos, Dieter Pfoser
分类: cs.CY, cs.CL
发布日期: 2024-08-22
备注: 13 pages, 10 Figures
💡 一句话要点
利用大型语言模型合成出行调查数据,评估城市交通模式。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 城市交通 出行调查 合成数据 数据生成
📋 核心要点
- 传统城市交通数据收集面临隐私、合规和成本挑战,限制了城市交通模式的有效分析。
- 利用大型语言模型生成合成出行调查数据,降低数据收集成本,同时规避隐私问题。
- 实验表明,微调后的开源LLM能生成与真实数据高度相似的合成数据,为交通研究提供可行的数据来源。
📝 摘要(中文)
本研究提出了一种基于人工智能的创新方法,通过提示大型语言模型(LLM)来合成出行调查数据,旨在利用LLM的大量相关背景知识和文本生成能力。该方法旨在解决城市交通模式分析中,因用户追踪或出行调查带来的隐私问题、合规性问题和高成本问题。研究在美国多个城市区域评估了该方法的有效性,并将结果与不同粒度级别的现有调查数据进行比较,包括模式层面(平均出行地点数和出行时间等聚合指标)、行程层面(使用转移概率比较整个行程)和活动链层面(个人访问地点的序列)。研究涵盖了多个专有和开源LLM,结果表明,即使在少量实际数据上进行微调,Llama-2等开源基础模型也能生成与实际出行调查数据非常相似的合成数据,从而为在交通研究中使用此类数据提供了依据。
🔬 方法详解
问题定义:城市交通模式分析依赖出行调查数据,但传统数据收集方式(如用户追踪、问卷调查)存在隐私泄露风险、合规性问题以及高昂的成本,阻碍了相关研究的开展。现有方法难以在保证数据质量的同时,兼顾隐私保护和成本控制。
核心思路:利用大型语言模型(LLM)强大的文本生成和知识推理能力,通过设计合适的提示词,让LLM生成模拟真实出行行为的合成数据。核心在于将LLM作为一种数据生成器,替代或补充传统的出行调查方法。
技术框架:该方法主要包含以下几个阶段:1) 确定研究区域和目标人群;2) 设计提示词,引导LLM生成出行调查数据,提示词需包含人口统计信息、出行目的、出行方式等;3) 使用不同的LLM(包括开源和闭源模型)生成数据;4) 将生成的合成数据与真实的出行调查数据进行对比分析,评估合成数据的质量和可用性,对比指标包括出行模式、行程和活动链等。
关键创新:该方法的核心创新在于将LLM应用于合成出行调查数据,这是一种全新的数据生成方式,能够有效降低数据收集成本,并规避隐私问题。与传统的基于统计模型或生成对抗网络(GAN)的合成数据方法相比,LLM具有更强的知识推理和文本生成能力,能够生成更逼真的出行行为数据。
关键设计:关键设计包括:1) 提示词的设计,需要精心设计提示词,以引导LLM生成符合特定人群和区域的出行数据;2) LLM的选择和微调,选择合适的LLM,并使用少量真实数据进行微调,可以提高合成数据的质量;3) 评估指标的选择,选择合适的评估指标,以全面评估合成数据的质量和可用性,例如出行模式、行程和活动链等。
🖼️ 关键图片
📊 实验亮点
研究表明,经过少量真实数据微调的开源LLM(如Llama-2)能够生成与真实出行调查数据高度相似的合成数据。在不同粒度层面(模式、行程、活动链)的对比分析中,合成数据与真实数据表现出高度的一致性,证明了该方法在城市交通研究中的可行性和有效性。该研究为利用LLM生成高质量的合成数据,并应用于实际场景提供了有力的证据。
🎯 应用场景
该研究成果可应用于城市规划、交通管理、公共服务优化等领域。通过合成出行数据,可以支持城市交通政策的制定、交通基础设施的规划、公共交通系统的优化,以及应急响应系统的改进。此外,该方法还可以用于模拟不同情景下的交通状况,为城市管理者提供决策支持。
📄 摘要(原文)
Understanding urban mobility patterns and analyzing how people move around cities helps improve the overall quality of life and supports the development of more livable, efficient, and sustainable urban areas. A challenging aspect of this work is the collection of mobility data by means of user tracking or travel surveys, given the associated privacy concerns, noncompliance, and high cost. This work proposes an innovative AI-based approach for synthesizing travel surveys by prompting large language models (LLMs), aiming to leverage their vast amount of relevant background knowledge and text generation capabilities. Our study evaluates the effectiveness of this approach across various U.S. metropolitan areas by comparing the results against existing survey data at different granularity levels. These levels include (i) pattern level, which compares aggregated metrics like the average number of locations traveled and travel time, (ii) trip level, which focuses on comparing trips as whole units using transition probabilities, and (iii) activity chain level, which examines the sequence of locations visited by individuals. Our work covers several proprietary and open-source LLMs, revealing that open-source base models like Llama-2, when fine-tuned on even a limited amount of actual data, can generate synthetic data that closely mimics the actual travel survey data, and as such provides an argument for using such data in mobility studies.