Guided Persona-based AI Surveys: Can we replicate personal mobility preferences at scale using LLMs?

📄 arXiv: 2501.13955v1 📥 PDF

作者: Ioannis Tzachristas, Santhanakrishnan Narayanan, Constantinos Antoniou

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-01-20


💡 一句话要点

提出基于人物角色的LLM人工调查方法,解决大规模个人出行偏好数据获取难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 合成数据 出行偏好 人物角色 交通规划

📋 核心要点

  1. 传统出行调查成本高、效率低、难以大规模开展,限制了交通规划和社会科学研究。
  2. 利用LLM生成合成调查数据,通过构建包含人口统计和行为属性的“人物角色”来模拟真实出行偏好。
  3. 实验表明,该方法能有效捕捉人口属性与出行偏好间的复杂关系,并具备探索假设场景的灵活性。

📝 摘要(中文)

本研究探索了利用大型语言模型(LLM)生成人工调查问卷的潜力,重点关注德国的个人出行偏好。通过利用LLM进行合成数据创建,旨在解决传统调查方法的高成本、低效率和可扩展性挑战等局限性。论文提出了一种新颖的方法,该方法结合了“人物角色”(人口统计学和行为属性的组合),并将其与另外五种合成调查方法进行了比较,这些方法在使用真实世界数据和方法复杂性方面有所不同。德国的综合出行调查MiD 2017数据集作为基准,用于评估合成数据与真实世界模式的一致性。结果表明,LLM可以有效地捕捉人口统计属性和偏好之间的复杂依赖关系,同时提供探索假设场景的灵活性。这种方法为交通规划和社会科学研究提供了宝贵的机会,能够实现可扩展、经济高效且保护隐私的数据生成。

🔬 方法详解

问题定义:论文旨在解决传统出行调查方法在获取大规模个人出行偏好数据时面临的成本高昂、效率低下以及可扩展性差的问题。现有方法难以灵活探索假设场景,且存在隐私泄露的风险。

核心思路:论文的核心思路是利用大型语言模型(LLM)生成合成的调查数据,从而替代或补充传统的调查方法。通过构建具有代表性的人口统计学和行为属性组合的“人物角色”,LLM能够模拟不同人群的出行偏好,并生成相应的调查问卷回答。这种方法旨在降低数据获取成本,提高效率,并保护受访者的隐私。

技术框架:该方法主要包含以下几个阶段:1) 定义人物角色:基于真实世界数据(如MiD 2017数据集)提取关键的人口统计学和行为属性,并组合成不同的人物角色。2) LLM提示工程:设计合适的提示语,引导LLM根据人物角色的属性生成相应的出行偏好调查问卷回答。3) 合成数据生成:利用训练好的LLM,为每个人物角色生成大量的合成调查数据。4) 数据评估:将合成数据与真实世界数据进行比较,评估合成数据的质量和真实性。

关键创新:该方法最重要的创新点在于将“人物角色”的概念引入到LLM驱动的合成调查数据生成过程中。通过明确定义人物角色的属性,LLM能够更好地理解不同人群的出行偏好,并生成更具代表性和真实性的合成数据。与传统的合成数据生成方法相比,该方法能够更好地捕捉人口统计属性和出行偏好之间的复杂依赖关系。

关键设计:论文中关键的设计包括:1) 人物角色的定义:选择哪些人口统计学和行为属性来定义人物角色,以及如何组合这些属性。2) LLM提示语的设计:如何设计提示语,才能有效地引导LLM生成符合人物角色属性的调查问卷回答。3) 数据评估指标的选择:选择哪些指标来评估合成数据的质量和真实性,例如,合成数据与真实世界数据之间的分布差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于人物角色的LLM方法能够有效地捕捉人口统计属性和出行偏好之间的复杂依赖关系,并生成与真实世界数据具有较高一致性的合成数据。该方法在探索假设场景方面也表现出良好的灵活性。与其他合成数据生成方法相比,该方法在数据质量和真实性方面具有一定的优势。

🎯 应用场景

该研究成果可应用于交通规划、城市规划和社会科学研究等领域。通过生成大规模的合成出行偏好数据,可以帮助交通规划者更好地了解不同人群的出行需求,从而制定更合理的交通政策和规划方案。此外,该方法还可以用于探索假设场景,例如,评估不同交通政策对出行行为的影响。由于该方法能够保护受访者的隐私,因此也适用于对隐私敏感的出行数据进行分析。

📄 摘要(原文)

This study explores the potential of Large Language Models (LLMs) to generate artificial surveys, with a focus on personal mobility preferences in Germany. By leveraging LLMs for synthetic data creation, we aim to address the limitations of traditional survey methods, such as high costs, inefficiency and scalability challenges. A novel approach incorporating "Personas" - combinations of demographic and behavioural attributes - is introduced and compared to five other synthetic survey methods, which vary in their use of real-world data and methodological complexity. The MiD 2017 dataset, a comprehensive mobility survey in Germany, serves as a benchmark to assess the alignment of synthetic data with real-world patterns. The results demonstrate that LLMs can effectively capture complex dependencies between demographic attributes and preferences while offering flexibility to explore hypothetical scenarios. This approach presents valuable opportunities for transportation planning and social science research, enabling scalable, cost-efficient and privacy-preserving data generation.