Teaching Values to Machines: Simulating Human-Like Behavior in LLMs
作者: Asaf Yehudai, Naama Rozen, Ariel Gera
分类: cs.AI, cs.CL
发布日期: 2026-05-28
备注: GEM Workshop at ACL 2026
💡 一句话要点
通过价值观引导,使LLM模拟更具人类一致性的行为
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 价值观引导 行为模拟 心理学 人机交互
📋 核心要点
- 现有LLM在角色扮演方面表现出色,但缺乏内在价值观体系,难以模拟人类行为的复杂性和一致性。
- 本研究通过心理学价值观理论引导LLM,使其具备类人价值观,从而提升行为模拟的真实性。
- 实验结果表明,价值观引导的LLM在价值观结构和行为模式上与人类高度一致,增强了人群模拟效果。
📝 摘要(中文)
大型语言模型(LLM)展现出采纳不同角色和身份的卓越能力;然而,它们是否能够表现出符合连贯、类人价值观结构的行为仍不清楚。本研究借鉴已建立的心理学价值观理论,在LLM中诱导类人价值观,并评估其与人类研究中观察到的模式的一致性。我们使用经过验证的心理学问卷,进行了大规模实验——超过500万个问题——以评估领先LLM中的价值观结构和价值观-行为关系,并将其与人类进行比较。研究结果表明,价值观引导的LLM与人类在两个维度上都表现出高度一致性。此外,结合人类价值观分布增强了基于价值观诱导LLM的人群层面模拟。这些发现突出了价值观诱导LLM作为有效、心理学基础扎实的工具,在模拟人类行为方面的潜力。
🔬 方法详解
问题定义:现有大型语言模型虽然在模仿人类语言和行为方面取得了显著进展,但缺乏内在的价值观体系,导致其行为在某些情况下可能与人类的价值观相悖,或者缺乏一致性。这限制了它们在需要模拟人类行为的场景中的应用,例如社会科学研究、用户行为建模等。现有方法难以将人类的价值观有效地融入到LLM中,使其行为更符合人类的预期。
核心思路:本研究的核心思路是借鉴心理学中的价值观理论,通过特定的提示(prompting)方法,将人类的价值观注入到LLM中。具体来说,研究者利用经过验证的心理学问卷,设计了一系列问题,这些问题旨在激发LLM对特定价值观的认知和认同。通过这种方式,LLM可以学习到人类的价值观体系,并在生成文本或进行决策时,考虑到这些价值观的影响。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择合适的LLM作为基础模型;2) 选取心理学中成熟的价值观理论(例如,Schwartz的价值观理论);3) 基于选定的价值观理论,设计相应的提示语,引导LLM理解和采纳这些价值观;4) 使用大规模的心理学问卷对LLM进行测试,评估其价值观结构和价值观-行为关系;5) 将LLM的输出结果与人类的反应进行比较,验证其模拟人类行为的有效性。
关键创新:该研究的关键创新在于将心理学中的价值观理论与LLM相结合,提出了一种新的方法来引导LLM的行为,使其更符合人类的价值观。与以往的研究相比,该方法更加注重对LLM内在价值观的塑造,而不仅仅是简单地模仿人类的语言和行为。这种方法可以有效地提高LLM在模拟人类行为方面的真实性和可靠性。
关键设计:研究中使用了经过验证的心理学问卷,例如Schwartz Value Survey (SVS),来评估LLM的价值观。提示语的设计至关重要,需要确保能够有效地激发LLM对特定价值观的认知和认同。研究者可能使用了特定的损失函数,例如对比学习损失,来鼓励LLM学习人类的价值观分布。此外,研究者可能还调整了LLM的参数,例如温度参数,以控制其输出的多样性和一致性。
🖼️ 关键图片
📊 实验亮点
研究结果表明,经过价值观引导的LLM在价值观结构和价值观-行为关系上与人类表现出高度一致性。通过大规模实验(超过500万个问题)验证了该方法的有效性。与未进行价值观引导的LLM相比,该方法能够显著提高LLM在模拟人类行为方面的真实性和可靠性。此外,研究还发现,结合人类价值观分布可以增强人群层面的模拟效果。
🎯 应用场景
该研究成果可应用于社会科学研究、用户行为建模、人机交互设计等领域。例如,可以利用价值观引导的LLM模拟不同人群的行为模式,从而预测社会事件的发生和发展。在人机交互设计中,可以利用LLM生成更符合用户价值观的对话内容,提高用户满意度。此外,该研究还有助于开发更安全、更可靠的AI系统,避免AI系统产生与人类价值观相悖的行为。
📄 摘要(原文)
Large Language Models (LLMs) demonstrate a remarkable capacity to adopt different personas and roles; however, it remains unclear whether they can manifest behavior that adheres to a coherent, human-like value structure. In this work, we draw on established psychological value theory to induce human-like values in LLMs and assess their alignment with patterns observed in human studies. Using validated psychological questionnaires, we conduct large-scale experiments -- over 5 million questions -- to evaluate value structures and value-behavior relationships in leading LLMs and compare them to humans. Our findings reveal strong agreement between value-prompted LLMs and humans across both dimensions. Moreover, incorporating human value distributions enhances population-level simulations with value-induced LLMs. These findings highlight the potential of value-induced LLMs as effective, psychologically grounded tools for simulating human behavior.