An Infectious Disease Spread Simulation Based on Large Language Model Decision Making

📄 arXiv: 2606.06360v1 📥 PDF

作者: Yonchanok Khaokaew, Ruochen Kong, Andreas Zufle, Hao Xue, Taylor Anderson, Chandini Raina MacIntyre, Matthew Scotch, Flora D. Salim, David J Heslop

分类: cs.AI

发布日期: 2026-06-04

备注: 12 pages


💡 一句话要点

基于大语言模型决策的传染病传播模拟框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 传染病模拟 大语言模型 代理模型 空间流行病学 行为分析 公共卫生

📋 核心要点

  1. 现有方法在模拟传染病期间个体决策时缺乏空间和社会异质性,限制了对行为动态的理解。
  2. 本文提出了一种基于大语言模型的空间代理模拟框架,能够生成基于人口统计信息和情境的个体决策。
  3. 实验结果表明,收入和教育是影响自报流感样疾病的主要因素,提供了对公共卫生干预的有价值见解。

📝 摘要(中文)

在传染病暴发期间,模拟个体决策对于理解行为动态和制定有效公共卫生干预措施至关重要。本文基于大语言模型(LLM)生成的决策,构建了一个空间基础的代理模型模拟框架,将自报流感样疾病的决策整合到基于人口普查的合成代理群体中。位置作为核心特征,代理被分配到城市的空间单元中,捕捉不同人口群体的空间分布。通过实施和比较独立推理、家庭影响和信息框架三种决策场景,模拟了旧金山和亚特兰大的自报结果。结果显示,收入和教育是报告率变化的主要驱动因素,地理、LLM模型选择和信息框架的影响相对较小。该框架生成的合成数据能够支持空间流行病学建模和偏见意识的行为分析。

🔬 方法详解

问题定义:本文旨在解决现有传染病传播模型在个体决策模拟中的空间和社会异质性不足的问题。现有方法往往忽视了地理和人口统计特征对决策的影响。

核心思路:通过构建一个空间基础的代理模型,结合大语言模型生成的决策,本文能够更真实地模拟个体在传染病暴发期间的行为。该设计使得模型能够反映不同地理位置和社会背景下的决策差异。

技术框架:整体架构包括三个主要模块:1) 基于人口普查数据的合成代理群体生成;2) 大语言模型生成的个体决策;3) 空间分布模拟,代理被分配到城市的不同空间单元。

关键创新:本文的主要创新在于将大语言模型与空间代理模型结合,能够生成反映社会和地理异质性的合成数据。这一方法与传统的基于均匀假设的模型有本质区别。

关键设计:模型中采用了基于人口统计特征的决策生成机制,设置了不同的决策场景(如独立推理、家庭影响和信息框架),并通过真实的城市人口普查数据进行空间分配。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,收入和教育水平对自报流感样疾病的报告率变化具有显著影响,且地理位置、LLM模型选择和信息框架的影响虽小但一致。该框架有效捕捉了社会和地理异质性,为流行病学建模提供了新的视角。

🎯 应用场景

该研究的潜在应用领域包括公共卫生政策制定、流行病学研究和社会行为分析。通过更准确地模拟个体决策,该框架能够为公共卫生干预措施提供数据支持,帮助决策者制定更有效的应对策略,尤其是在传染病暴发期间。

📄 摘要(原文)

Modelling individual decision-making during infectious disease outbreaks is crucial for understanding behavioural dynamics and informing effective public health interventions. Prior work has shown that large language models can simulate realistic human behaviour by generating agent decisions based on demographic prompts and situational context. We build on this foundation with a spatially grounded, agent-based simulation framework that integrates LLM-generated decisions about self-reported influenza-like illness into a census-based synthetic population of agents. Location is treated as a central feature: agents are assigned to spatial units within cities, capturing the spatial distributions of different demographic groups using real-world census data and enabling geographically diverse behavioural modelling. We implement and compare three decision scenarios, independent reasoning, household influence, and message framing, and simulate self-reporting outcomes in San Francisco and Atlanta. Results reveal that income and education are the dominant drivers of reporting rate variation, with smaller but consistent effects from geography, LLM model choice, and message framing. Our framework generates synthetic data that captures both social and geographic heterogeneity, supporting spatial epidemiological modelling and bias-aware behavioural analysis.