Do Large Language Models Walk Their Talk? Measuring the Gap Between Implicit Associations, Self-Report, and Behavioral Altruism
作者: Sandro Andric
分类: cs.LG, cs.AI, cs.CL, cs.CY
发布日期: 2025-12-01
备注: 14 pages, 7 figures, 7 tables. Code and data available at https://github.com/sandroandric/LLMs_Altruism_Study_Code
💡 一句话要点
评估大型语言模型利他行为:揭示内隐认知、自我报告与实际行为间的差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 利他主义 价值观对齐 内隐联想测验 行为评估 自我报告 美德信号差距
📋 核心要点
- 现有方法难以准确评估大型语言模型(LLM)的真实利他行为,尤其是在内隐认知、自我报告和实际行为之间可能存在偏差。
- 论文提出了一种多方法评估框架,结合内隐联想测验、行为选择任务和自我评估量表,以综合考察LLM的利他主义倾向。
- 实验结果表明,LLM普遍存在“美德信号差距”,即高估自身利他行为,且内隐认知与实际行为之间缺乏一致性,仅有少数模型校准良好。
📝 摘要(中文)
本文研究了大型语言模型(LLM)是否表现出利他倾向,以及其内隐认知和自我报告是否能预测实际的利他行为。借鉴人类社会心理学,我们采用多方法策略,在三个范式下测试了24个前沿LLM:(1)内隐联想测验(IAT),测量内隐利他主义偏见;(2)强制二元选择任务,测量行为利他主义;(3)自我评估量表,测量外显利他主义信念。主要发现包括:(1)所有模型都表现出强烈的内隐亲利他主义偏见(平均IAT = 0.87,p < .0001),证实模型“知道”利他主义是好的。(2)模型的行为比随机情况更利他(65.6% vs. 50%,p < .0001),但差异很大(48-85%)。(3)内隐联想不能预测行为(r = .22,p = .29)。(4)最关键的是,模型系统性地高估了自己的利他主义,声称利他主义为77.5%,而实际行为为65.6%(p < .0001,Cohen's d = 1.08)。这种“美德信号差距”影响了75%的受测模型。基于这些发现,我们推荐将校准差距(自我报告值和行为值之间的差异)作为标准化对齐指标。校准良好的模型更具可预测性和行为一致性;只有12.5%的模型实现了高亲社会行为和准确自我认知这两种理想组合。
🔬 方法详解
问题定义:论文旨在解决如何准确评估大型语言模型(LLM)的利他行为的问题。现有方法主要依赖于自我报告或简单的行为测试,无法揭示LLM内隐认知、自我认知与实际行为之间的潜在偏差。这种偏差可能导致对LLM真实意图和行为的误判,阻碍其安全可靠的应用。
核心思路:论文的核心思路是借鉴人类社会心理学的研究方法,采用多方法策略,综合考察LLM的内隐利他主义偏见、行为利他主义和外显利他主义信念。通过比较这三个维度的数据,揭示LLM在利他行为上的“美德信号差距”,即自我报告与实际行为之间的差异。
技术框架:整体框架包含三个主要模块:1) 内隐联想测验(IAT):用于测量LLM的内隐利他主义偏见,通过关联“利他主义”和“好”的概念,以及“自私”和“坏”的概念,计算IAT得分。2) 强制二元选择任务:用于测量LLM的行为利他主义,让LLM在利他选项和自私选项之间做出选择,统计利他行为的比例。3) 自我评估量表:用于测量LLM的外显利他主义信念,让LLM对自身的利他主义程度进行评估。
关键创新:最重要的技术创新点在于将人类社会心理学的研究方法应用于LLM的利他行为评估。通过多方法策略,揭示了LLM在利他行为上的“美德信号差距”,并提出了“校准差距”作为标准化对齐指标。这为评估LLM的真实意图和行为提供了一种新的视角。
关键设计:在IAT中,使用了精心设计的词汇列表,以确保能够准确反映利他主义和自私的概念。在强制二元选择任务中,设计了多种情境,以模拟不同的利他行为场景。在自我评估量表中,使用了标准化的量表,以确保能够准确测量LLM的外显利他主义信念。此外,论文还使用了Cohen's d等统计指标,来量化“美德信号差距”的大小。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所有受测LLM都表现出强烈的内隐亲利他主义偏见(平均IAT = 0.87,p < .0001),但实际利他行为的比例差异很大(48-85%)。更重要的是,模型普遍高估了自己的利他主义程度,声称利他主义为77.5%,而实际行为为65.6%(p < .0001,Cohen's d = 1.08)。这种“美德信号差距”影响了75%的受测模型,仅有12.5%的模型实现了高亲社会行为和准确自我认知这两种理想组合。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型的价值观对齐。通过量化模型在利他行为上的“校准差距”,可以帮助开发者更好地理解模型的真实意图,并采取措施减少偏差,提高模型的可预测性和安全性。这对于开发负责任的AI系统至关重要,尤其是在涉及伦理和社会影响的领域。
📄 摘要(原文)
We investigate whether Large Language Models (LLMs) exhibit altruistic tendencies, and critically, whether their implicit associations and self-reports predict actual altruistic behavior. Using a multi-method approach inspired by human social psychology, we tested 24 frontier LLMs across three paradigms: (1) an Implicit Association Test (IAT) measuring implicit altruism bias, (2) a forced binary choice task measuring behavioral altruism, and (3) a self-assessment scale measuring explicit altruism beliefs. Our key findings are: (1) All models show strong implicit pro-altruism bias (mean IAT = 0.87, p < .0001), confirming models "know" altruism is good. (2) Models behave more altruistically than chance (65.6% vs. 50%, p < .0001), but with substantial variation (48-85%). (3) Implicit associations do not predict behavior (r = .22, p = .29). (4) Most critically, models systematically overestimate their own altruism, claiming 77.5% altruism while acting at 65.6% (p < .0001, Cohen's d = 1.08). This "virtue signaling gap" affects 75% of models tested. Based on these findings, we recommend the Calibration Gap (the discrepancy between self-reported and behavioral values) as a standardized alignment metric. Well-calibrated models are more predictable and behaviorally consistent; only 12.5% of models achieve the ideal combination of high prosocial behavior and accurate self-knowledge.