Post-training makes large language models less human-like
作者: Marcel Binz, Elif Akata, Abdullah Almaatouq, Mohammed Alsobay, Oleksii Ariasov, Franziska Brändle, David Broska, Jason W. Burton, Nuno Busch, Frederick Callaway, Vanessa Cheung, Brian Christian, Julian Coda-Forno, Can Demircan, Vittoria Dentella, Maria K. Eckstein, Noémi Éltető, Michael Franke, Thomas L. Griffiths, Fritz Günther, Susanne Haridi, Sebastian Hellmann, Stefan Herytash, Linus Hof, Eleanor Holton, Isabelle Hoxha, Zak Hussain, Akshay Jagadish, Elif Kara, Valentin Kriegmair, Evelina Leivada, Li Ji-An, Tobias Ludwig, Maximilian Maier, Marcelo G. Mattar, Marvin Mathony, Alireza Modirshanechi, Robin Na, Mariia Nadverniuk, Antonios Nasioulas, Surabhi S. Nath, Helen Niemeyer, Kate Nussenbaum, Sebastian Olschewski, Thorsten Pachur, Stefano Palminteri, Aliona Petrenco, Camille V. Phaneuf-Hadd, Angelo Pirrone, Manuel Rausch, Laura Raveling, Shashank Reddy, Milena Rmus, Evan M. Russek, Tankred Saanum, Kai Sandbrink, Louis Schiekiera, Johannes A. Schubert, Luca M. Schulze Buschoff, Nishad Singhi, Leah H. Somerville, Mikhail S. Spektor, Xin Sui, Christopher Summerfield, Mirko Thalmann, Anna I. Thoma, Taisiia Tikhomirova, Vuong Truong, Polina Tsvilodub, Konstantinos Voudouris, Robert C. Wilson, Kristin Witte, Shuchen Wu, Dirk U. Wulff, Hua-Dong Xiong, Songlin Xu, Lance Ying, Xinyu Zhang, Jian-Qiao Zhu, Eric Schulz
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-08
💡 一句话要点
提出Psych-201数据集并揭示后训练过程导致大语言模型行为对齐度下降的现象
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 行为对齐 计算心理学 后训练 决策模拟 人工智能评估
📋 核心要点
- 核心问题:现有研究缺乏大规模基准来评估LLM在模拟人类行为方面的准确性,且模型作为人类替代品的有效性尚不明确。
- 方法要点:构建了包含广泛心理学任务的Psych-201数据集,系统性对比了基础模型与后训练模型在模拟人类决策行为上的差异。
- 实验效果:实验证实后训练过程会显著削弱模型对人类行为的模拟能力,且该趋势在模型迭代升级中表现出加剧的态势。
📝 摘要(中文)
大语言模型(LLMs)正日益被用作人类参与者的替代品,但目前尚不清楚哪些模型能最好地捕捉人类行为及其原因。为解决这一问题,我们引入了Psych-201,这是一个能够在大规模尺度上衡量行为对齐程度的新颖数据集。研究发现,将基础模型转化为有用助手的“后训练”阶段,在不同模型家族、规模和目标函数中,均持续降低了模型与人类行为的对齐度。此外,尽管基础模型性能不断提升,但这种失调在较新的模型代际中反而进一步扩大。最后,我们发现通过特定参与者信息进行条件约束的“角色诱导”技术,并不能在个体层面提升预测准确性。综上所述,这些结果表明,目前用于将LLM转化为有用助手的训练流程,反而使其作为人类行为模型的能力下降。
🔬 方法详解
问题定义:论文旨在量化大语言模型在模拟人类行为方面的表现,并探究模型训练流程(特别是后训练阶段,如RLHF或指令微调)如何影响其对人类心理决策过程的拟合能力。
核心思路:通过构建大规模心理学实验数据集Psych-201,将LLM的输出与真实人类参与者的行为数据进行对比。研究假设模型在追求“有用性”和“安全性”的对齐过程中,可能偏离了人类真实的认知偏差和决策模式。
技术框架:研究采用了大规模基准测试框架,涵盖了认知科学中的多种经典决策任务。通过对比同一模型家族在预训练阶段(Base)与后训练阶段(Instruct/Chat)的输出,评估其在模拟人类概率选择、风险偏好及社会行为上的差异。
关键创新:首次系统性揭示了“有用性对齐”与“行为模拟对齐”之间的权衡(Trade-off)。研究指出,模型越符合人类对“理想助手”的预期,其在模拟人类真实非理性行为方面的表现反而越差。
关键设计:引入了Psych-201数据集,包含跨越多个心理学领域的实验任务。测试中使用了角色诱导(Persona-induction)技术,试图通过提示词注入个体特征来改善预测,但结果表明该方法在个体层面预测人类行为时效果有限。
🖼️ 关键图片
📊 实验亮点
研究通过Psych-201数据集发现,后训练过程导致模型在模拟人类行为上的对齐度出现系统性下降。实验对比显示,即使是性能更强的新一代模型,在模拟人类决策时也表现出更严重的失调。此外,角色诱导技术在个体预测任务中未能产生显著的性能增益,证明了模型内部表征与人类真实行为逻辑存在根本性差异。
🎯 应用场景
该研究对计算社会科学、行为经济学及心理学研究具有深远影响。它警示研究者在使用LLM作为人类行为模拟器(Agent)时需谨慎,特别是在涉及社会科学实验、政策模拟及用户行为预测的场景中,需重新评估模型作为“数字孪生”的可靠性。
📄 摘要(原文)
Large language models (LLMs) are increasingly used as surrogates for human participants, but it remains unclear which models best capture human behavior and why. To address this, we introduce Psych-201, a novel dataset that enables us to measure behavioral alignment at scale. We find that post-training -- the stage that turns base models into useful assistants -- consistently reduces alignment with human behavior across model families, sizes, and objectives. Moreover, this misalignment widens in newer model generations even as base models continue to improve. Finally, we find that persona-induction -- a popular technique for eliciting human-like behavior by conditioning models on participant-specific information -- does not improve predictions at the level of individuals. Taken together, our results suggest that the very processes that are currently employed to turn LLMs into useful assistants also make them less accurate models of human behavior.