SLALOM: Simulation Lifecycle Analysis via Longitudinal Observation Metrics for Social Simulation
作者: Juhoon Lee, Joseph Seering
分类: cs.MA, cs.AI
发布日期: 2026-04-13
备注: CHI 2026 PoliSim@CHI 2026: LLM Agent Simulation for Policy Workshop
💡 一句话要点
SLALOM:通过纵向观察指标分析社会模拟生命周期,解决LLM社会模拟验证难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 社会模拟 大型语言模型 过程保真度 动态时间规整 模式导向建模
📋 核心要点
- 现有社会模拟评估方法只关注最终结果,忽略了模拟过程的合理性,无法有效验证LLM驱动的社会模拟。
- SLALOM框架通过将社会现象视为时间序列,并设置中间阶段约束(SLALOM门),来评估模拟过程的保真度。
- SLALOM利用动态时间规整(DTW)对齐模拟轨迹和真实数据,提供量化指标评估结构现实主义,区分合理动态和噪声。
📝 摘要(中文)
大型语言模型(LLM)驱动的智能体为生成式社会科学提供了一条潜在的变革之路,但也面临着严峻的有效性危机。当前的模拟评估方法存在“停滞的时钟”问题:它们确认模拟达到了正确的最终结果,却忽略了导致该结果的轨迹在社会学上是否合理。由于LLM的内部推理是不透明的,因此验证社会机制的“黑盒”仍然是一个持续的挑战。本文介绍了一种名为SLALOM(Simulation Lifecycle Analysis via Longitudinal Observation Metrics)的框架,该框架将验证从结果验证转移到过程保真度。SLALOM借鉴了面向模式的建模(POM),将社会现象视为必须遍历特定SLALOM门(代表不同阶段的中间航路点约束)的多元时间序列。通过利用动态时间规整(DTW)将模拟轨迹与经验真值对齐,SLALOM提供了一种定量指标来评估结构现实主义,有助于区分合理的社会动态与随机噪声,并有助于建立更稳健的政策模拟标准。
🔬 方法详解
问题定义:当前基于LLM的社会模拟面临有效性验证的挑战。现有方法主要关注模拟的最终结果是否正确,而忽略了模拟过程中社会动态的合理性。由于LLM内部推理的黑盒特性,难以验证其社会机制的合理性,导致模拟结果可能只是偶然正确,缺乏可信度。
核心思路:SLALOM的核心思路是将社会现象视为一个随时间演化的过程,而非仅仅关注最终状态。通过引入“SLALOM门”的概念,将社会现象分解为多个阶段,并要求模拟轨迹必须依次通过这些阶段。这样,就可以通过评估模拟轨迹与真实轨迹在各个阶段的相似度,来判断模拟过程的合理性。
技术框架:SLALOM框架主要包含以下几个步骤:1) 定义社会现象的SLALOM门,即关键的中间状态或阶段。2) 获取社会现象的经验数据,作为真实轨迹。3) 运行LLM驱动的社会模拟,生成模拟轨迹。4) 使用动态时间规整(DTW)算法将模拟轨迹与真实轨迹对齐。5) 计算SLALOM指标,评估模拟轨迹与真实轨迹的相似度,从而判断模拟过程的合理性。
关键创新:SLALOM的关键创新在于将过程保真度引入社会模拟的验证中。与传统的只关注结果的验证方法不同,SLALOM关注模拟过程的合理性,能够更有效地识别出不合理的模拟结果。此外,SLALOM利用动态时间规整(DTW)算法,能够有效地处理时间序列的偏移和扭曲,从而更准确地评估模拟轨迹与真实轨迹的相似度。
关键设计:SLALOM门的设计是关键。SLALOM门需要根据具体的社会现象进行定义,应该能够反映社会现象的关键特征和演化规律。动态时间规整(DTW)算法的选择也很重要,需要根据时间序列的特点选择合适的距离度量和约束条件。此外,SLALOM指标的计算也需要进行仔细设计,应该能够有效地反映模拟轨迹与真实轨迹的相似度。
🖼️ 关键图片
📊 实验亮点
论文提出了SLALOM框架,通过引入过程保真度评估,有效提高了社会模拟的验证水平。实验结果(具体数据未知)表明,SLALOM能够区分合理的社会动态与随机噪声,并为建立更稳健的政策模拟标准提供了可能。SLALOM框架为LLM驱动的社会模拟提供了一种新的验证方法,具有重要的理论和实践意义。
🎯 应用场景
SLALOM框架可应用于各种基于LLM的社会模拟,例如政策模拟、市场预测、舆情分析等。通过提高社会模拟的有效性和可信度,SLALOM有助于制定更合理的政策、做出更准确的预测、以及更好地理解社会现象。该框架为社会科学研究提供了一种新的验证工具,并有望推动生成式社会科学的发展。
📄 摘要(原文)
Large Language Model (LLM) agents offer a potentially-transformative path forward for generative social science but face a critical crisis of validity. Current simulation evaluation methodologies suffer from the "stopped clock" problem: they confirm that a simulation reached the correct final outcome while ignoring whether the trajectory leading to it was sociologically plausible. Because the internal reasoning of LLMs is opaque, verifying the "black box" of social mechanisms remains a persistent challenge. In this paper, we introduce SLALOM (Simulation Lifecycle Analysis via Longitudinal Observation Metrics), a framework that shifts validation from outcome verification to process fidelity. Drawing on Pattern-Oriented Modeling (POM), SLALOM treats social phenomena as multivariate time series that must traverse specific SLALOM gates, or intermediate waypoint constraints representing distinct phases. By utilizing Dynamic Time Warping (DTW) to align simulated trajectories with empirical ground truth, SLALOM offers a quantitative metric to assess structural realism, helping to differentiate plausible social dynamics from stochastic noise and contributing to more robust policy simulation standards.