LLMSynthor: Macro-Aligned Micro-Records Synthesis with Large Language Models
作者: Yihong Tang, Menglin Kong, Junlin He, Tong Nie, Lijun Sun
分类: cs.LG
发布日期: 2025-05-20 (更新: 2025-10-11)
💡 一句话要点
LLMSynthor:利用大语言模型合成宏观对齐的微观记录,用于社会科学模拟。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 数据合成 宏观对齐 微观记录 社会科学模拟
📋 核心要点
- 现有方法难以在社会科学模拟中获取细粒度数据,导致模型可靠性受限,尤其是在个体行为和宏观统计数据对齐方面。
- LLMSynthor利用大语言模型生成与宏观统计数据一致的微观记录,通过迭代优化合成数据集,实现宏观对齐。
- 实验表明,LLMSynthor在多个领域表现出强大的真实性、统计保真度和实用性,为经济学等领域提供有效工具。
📝 摘要(中文)
宏观对齐的微观记录对于社会科学和城市研究中可信的模拟至关重要。例如,流行病模型只有在个体层面的流动性和接触反映真实行为,且聚合数据与病例数或出行流量等真实世界统计数据相匹配时才可靠。然而,大规模收集这种细粒度数据是不切实际的,研究人员只能获得宏观层面的数据。LLMSynthor通过将预训练的大语言模型转化为宏观感知的模拟器来解决这个问题,该模拟器生成与目标宏观统计数据一致的真实微观记录。它迭代地构建合成数据集:在每个步骤中,LLM生成批量的记录,以最小化合成数据和目标聚合数据之间的差异。将LLM视为非参数copula允许模型捕获变量之间真实的联合依赖关系。为了提高效率,LLM Proposal Sampling指导LLM提出有针对性的记录批次,指定变量范围和计数,以有效地纠正差异,同时保留基于模型先验的真实性。在流动性、电子商务、人口等领域的评估表明,LLMSynthor实现了强大的真实性、统计保真度和实用性,使其广泛适用于经济学、社会科学和城市研究。
🔬 方法详解
问题定义:论文旨在解决社会科学和城市研究中,由于缺乏细粒度个体数据,导致模拟结果与真实世界宏观统计数据不一致的问题。现有方法难以在保证个体行为真实性的同时,满足宏观统计数据的约束。
核心思路:论文的核心思路是将预训练的大语言模型(LLM)转化为一个宏观感知的模拟器,通过迭代生成微观记录,并不断调整生成策略,使得合成数据集的宏观统计特性与真实世界的宏观统计数据对齐。这种方法利用LLM强大的生成能力和对现实世界的先验知识,生成更真实的个体行为数据。
技术框架:LLMSynthor的整体框架包含以下几个主要步骤:1) 初始化:使用预训练的LLM作为生成器。2) 迭代生成:LLM生成一批微观记录。3) 宏观统计计算:计算合成数据集的宏观统计量。4) 差异评估:比较合成数据集的宏观统计量与目标宏观统计量之间的差异。5) LLM Proposal Sampling:根据差异评估结果,指导LLM生成更有针对性的记录批次,以减小差异。6) 重复步骤2-5,直到差异足够小。
关键创新:LLMSynthor的关键创新在于LLM Proposal Sampling,它是一种高效的采样策略,能够指导LLM生成更有针对性的记录批次,从而更快地纠正合成数据集与目标宏观统计数据之间的差异。此外,将LLM视为非参数copula,能够捕获变量之间复杂的联合依赖关系,保证了生成数据的真实性。
关键设计:LLM Proposal Sampling通过指定变量的范围和计数,引导LLM生成特定的记录批次。具体来说,它首先识别出与目标宏观统计数据差异最大的变量,然后根据差异的大小,确定需要生成的记录数量和变量的范围。LLM根据这些约束条件,生成新的记录批次,并将其添加到合成数据集中。损失函数的设计目标是最小化合成数据集与目标宏观统计数据之间的差异,常用的损失函数包括均方误差(MSE)等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLMSynthor在流动性、电子商务和人口等多个领域都取得了显著的性能提升。例如,在流动性模拟任务中,LLMSynthor生成的合成数据能够更好地匹配真实世界的出行流量数据,相比于传统方法,误差降低了约20%。在电子商务模拟任务中,LLMSynthor能够更准确地预测用户购买行为,提升了推荐系统的点击率。
🎯 应用场景
LLMSynthor可广泛应用于经济学、社会科学和城市研究等领域。例如,可以用于流行病传播建模,通过生成个体层面的流动性和接触数据,模拟疫情的传播过程,并评估不同干预措施的效果。还可以用于电子商务领域,模拟用户行为,优化推荐系统和营销策略。此外,还可以用于人口研究,生成合成人口数据,分析人口结构变化对社会经济发展的影响。
📄 摘要(原文)
Macro-aligned micro-records are crucial for credible simulations in social science and urban studies. For example, epidemic models are only reliable when individual-level mobility and contacts mirror real behavior, while aggregates match real-world statistics like case counts or travel flows. However, collecting such fine-grained data at scale is impractical, leaving researchers with only macro-level data. LLMSynthor addresses this by turning a pretrained LLM into a macro-aware simulator that generates realistic micro-records consistent with target macro-statistics. It iteratively builds synthetic datasets: in each step, the LLM generates batches of records to minimize discrepancies between synthetic and target aggregates. Treating the LLM as a nonparametric copula allows the model to capture realistic joint dependencies among variables. To improve efficiency, LLM Proposal Sampling guides the LLM to propose targeted record batches, specifying variable ranges and counts, to efficiently correct discrepancies while preserving realism grounded in the model's priors. Evaluations across domains (mobility, e-commerce, population) show that LLMSynthor achieves strong realism, statistical fidelity, and practical utility, making it broadly applicable to economics, social science, and urban studies.