SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors
作者: Tiancheng Hu, Joachim Baumann, Lorenzo Lupo, Nigel Collier, Dirk Hovy, Paul Röttger
分类: cs.CL, cs.AI, cs.CY, cs.LG
发布日期: 2025-10-20 (更新: 2025-10-27)
备注: Project Website: http://simbench.tiancheng.hu/ Data: https://huggingface.co/datasets/pitehu/SimBench
💡 一句话要点
SimBench:构建大规模基准测试,评估大语言模型模拟人类行为的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 人类行为模拟 基准测试 社会科学 行为科学 评估指标 知识推理
📋 核心要点
- 现有LLM人类行为模拟评估分散,缺乏统一标准,导致结果难以比较,阻碍了相关研究的进展。
- SimBench构建了一个大规模、标准化的基准测试,包含20个涵盖不同任务和人群的数据集,用于评估LLM模拟人类行为的能力。
- 实验表明,当前LLM的模拟能力有限,性能与模型大小呈对数线性关系,且存在对齐-模拟的权衡。
📝 摘要(中文)
大语言模型(LLM)对人类行为的模拟,如果能够忠实地反映真实的人类行为,将有可能彻底改变社会和行为科学。然而,目前的评估是分散的,基于定制的任务和指标,造成了结果之间缺乏可比性。为了解决这个问题,我们推出了SimBench,这是第一个大规模、标准化的基准,用于对LLM模拟进行稳健、可重复的科学研究。SimBench统一了20个不同的数据集,涵盖了从道德决策到经济选择等任务,覆盖了广泛的全球参与者群体,为探究LLM模拟在何时、如何以及为何成功或失败等根本问题提供了必要的基础。我们发现,即使是目前最好的LLM,其模拟能力也有限(得分:40.80/100),但性能与模型大小呈对数线性关系。增加推理时的计算量并不能提高模拟性能。我们还展示了一种对齐-模拟的权衡:指令调优提高了低熵(共识)问题的性能,但降低了高熵(多样化)问题的性能。模型在模拟特定人口群体时尤其困难。最后,我们证明了模拟能力与深度、知识密集型推理(MMLU-Pro,r=0.939)的相关性最强。通过使进展可衡量,我们旨在加速开发更忠实的LLM模拟器。
🔬 方法详解
问题定义:论文旨在解决现有大语言模型(LLM)在模拟人类行为时,缺乏统一、标准化的评估基准的问题。现有的评估方法通常是针对特定任务定制的,导致不同模型和方法之间的结果难以比较,阻碍了该领域的发展。此外,现有方法难以系统性地分析LLM模拟的优势和局限性,以及影响模拟性能的关键因素。
核心思路:论文的核心思路是构建一个大规模、多样化的基准测试集SimBench,涵盖多个领域的人类行为数据,并设计统一的评估指标,从而为LLM模拟提供一个公平、可比的评估平台。通过对不同LLM在SimBench上的表现进行分析,可以深入了解LLM模拟的优势和局限性,并指导LLM模拟技术的进一步发展。
技术框架:SimBench基准测试包含20个不同的数据集,涵盖了从道德决策到经济选择等多个领域的人类行为数据。这些数据集来自不同的来源,覆盖了广泛的全球参与者群体。论文使用统一的评估指标来衡量LLM在不同数据集上的模拟性能。此外,论文还分析了LLM的规模、推理计算量、指令调优等因素对模拟性能的影响。
关键创新:SimBench是第一个大规模、标准化的LLM人类行为模拟基准测试。它统一了多个领域的数据集,并提供了统一的评估指标,从而为LLM模拟提供了一个公平、可比的评估平台。此外,SimBench还深入分析了影响LLM模拟性能的关键因素,为LLM模拟技术的进一步发展提供了指导。
关键设计:SimBench的关键设计包括:1) 数据集的多样性,涵盖了多个领域的人类行为数据;2) 评估指标的统一性,使用统一的指标来衡量LLM在不同数据集上的模拟性能;3) 实验设计的严谨性,系统地分析了LLM的规模、推理计算量、指令调优等因素对模拟性能的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,当前最佳LLM在SimBench上的平均得分为40.80/100,表明LLM的模拟能力仍有很大的提升空间。性能与模型大小呈对数线性关系。指令调优在低熵问题上提升性能,但在高熵问题上降低性能。模拟特定人口群体时表现较差。模拟能力与知识密集型推理能力(MMLU-Pro,r=0.939)高度相关。
🎯 应用场景
该研究成果可应用于社会科学、行为科学、经济学等领域,帮助研究人员利用LLM模拟人类行为,从而进行更高效、更低成本的研究。例如,可以利用LLM模拟不同政策对人群行为的影响,从而为政策制定提供参考。此外,该研究还可以促进LLM在人机交互、智能客服等领域的应用,提升LLM的智能化水平。
📄 摘要(原文)
Large language model (LLM) simulations of human behavior have the potential to revolutionize the social and behavioral sciences, if and only if they faithfully reflect real human behaviors. Current evaluations are fragmented, based on bespoke tasks and metrics, creating a patchwork of incomparable results. To address this, we introduce SimBench, the first large-scale, standardized benchmark for a robust, reproducible science of LLM simulation. By unifying 20 diverse datasets covering tasks from moral decision-making to economic choice across a large global participant pool, SimBench provides the necessary foundation to ask fundamental questions about when, how, and why LLM simulations succeed or fail. We show that, while even the best LLMs today have limited simulation ability (score: 40.80/100), performance scales log-linearly with model size. Simulation performance is not improved by increased inference-time compute. We demonstrate an alignment-simulation trade-off: instruction-tuning improves performance on low-entropy (consensus) questions but degrades it on high-entropy (diverse) ones. Models particularly struggle when simulating specific demographic groups. Finally, we demonstrate that simulation ability correlates most strongly with deep, knowledge-intensive reasoning (MMLU-Pro, r=0.939). By making progress measurable, we aim to accelerate the development of more faithful LLM simulators.