Do Large Language Models Walk Their Talk? Measuring the Gap Between Implicit Associations, Self-Report, and Behavioral Altruism

作者: Sandro Andric

分类: cs.LG, cs.AI, cs.CL, cs.CY

发布日期: 2025-12-01

备注: 14 pages, 7 figures, 7 tables. Code and data available at https://github.com/sandroandric/LLMs_Altruism_Study_Code

💡 一句话要点

评估大型语言模型利他行为：揭示内隐认知、自我报告与实际行为间的差距

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 利他主义 价值观对齐 内隐联想测验 行为评估 自我报告 美德信号差距

📋 核心要点

现有方法难以准确评估大型语言模型（LLM）的真实利他行为，尤其是在内隐认知、自我报告和实际行为之间可能存在偏差。
论文提出了一种多方法评估框架，结合内隐联想测验、行为选择任务和自我评估量表，以综合考察LLM的利他主义倾向。
实验结果表明，LLM普遍存在“美德信号差距”，即高估自身利他行为，且内隐认知与实际行为之间缺乏一致性，仅有少数模型校准良好。

📝 摘要（中文）

本文研究了大型语言模型（LLM）是否表现出利他倾向，以及其内隐认知和自我报告是否能预测实际的利他行为。借鉴人类社会心理学，我们采用多方法策略，在三个范式下测试了24个前沿LLM：（1）内隐联想测验（IAT），测量内隐利他主义偏见；（2）强制二元选择任务，测量行为利他主义；（3）自我评估量表，测量外显利他主义信念。主要发现包括：（1）所有模型都表现出强烈的内隐亲利他主义偏见（平均IAT = 0.87，p < .0001），证实模型“知道”利他主义是好的。（2）模型的行为比随机情况更利他（65.6% vs. 50%，p < .0001），但差异很大（48-85%）。（3）内隐联想不能预测行为（r = .22，p = .29）。（4）最关键的是，模型系统性地高估了自己的利他主义，声称利他主义为77.5%，而实际行为为65.6%（p < .0001，Cohen's d = 1.08）。这种“美德信号差距”影响了75%的受测模型。基于这些发现，我们推荐将校准差距（自我报告值和行为值之间的差异）作为标准化对齐指标。校准良好的模型更具可预测性和行为一致性；只有12.5%的模型实现了高亲社会行为和准确自我认知这两种理想组合。

🔬 方法详解

问题定义：论文旨在解决如何准确评估大型语言模型（LLM）的利他行为的问题。现有方法主要依赖于自我报告或简单的行为测试，无法揭示LLM内隐认知、自我认知与实际行为之间的潜在偏差。这种偏差可能导致对LLM真实意图和行为的误判，阻碍其安全可靠的应用。

核心思路：论文的核心思路是借鉴人类社会心理学的研究方法，采用多方法策略，综合考察LLM的内隐利他主义偏见、行为利他主义和外显利他主义信念。通过比较这三个维度的数据，揭示LLM在利他行为上的“美德信号差距”，即自我报告与实际行为之间的差异。

技术框架：整体框架包含三个主要模块：1) 内隐联想测验（IAT）：用于测量LLM的内隐利他主义偏见，通过关联“利他主义”和“好”的概念，以及“自私”和“坏”的概念，计算IAT得分。2) 强制二元选择任务：用于测量LLM的行为利他主义，让LLM在利他选项和自私选项之间做出选择，统计利他行为的比例。3) 自我评估量表：用于测量LLM的外显利他主义信念，让LLM对自身的利他主义程度进行评估。

关键创新：最重要的技术创新点在于将人类社会心理学的研究方法应用于LLM的利他行为评估。通过多方法策略，揭示了LLM在利他行为上的“美德信号差距”，并提出了“校准差距”作为标准化对齐指标。这为评估LLM的真实意图和行为提供了一种新的视角。

关键设计：在IAT中，使用了精心设计的词汇列表，以确保能够准确反映利他主义和自私的概念。在强制二元选择任务中，设计了多种情境，以模拟不同的利他行为场景。在自我评估量表中，使用了标准化的量表，以确保能够准确测量LLM的外显利他主义信念。此外，论文还使用了Cohen's d等统计指标，来量化“美德信号差距”的大小。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所有受测LLM都表现出强烈的内隐亲利他主义偏见（平均IAT = 0.87，p < .0001），但实际利他行为的比例差异很大（48-85%）。更重要的是，模型普遍高估了自己的利他主义程度，声称利他主义为77.5%，而实际行为为65.6%（p < .0001，Cohen's d = 1.08）。这种“美德信号差距”影响了75%的受测模型，仅有12.5%的模型实现了高亲社会行为和准确自我认知这两种理想组合。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的价值观对齐。通过量化模型在利他行为上的“校准差距”，可以帮助开发者更好地理解模型的真实意图，并采取措施减少偏差，提高模型的可预测性和安全性。这对于开发负责任的AI系统至关重要，尤其是在涉及伦理和社会影响的领域。

📄 摘要（原文）

We investigate whether Large Language Models (LLMs) exhibit altruistic tendencies, and critically, whether their implicit associations and self-reports predict actual altruistic behavior. Using a multi-method approach inspired by human social psychology, we tested 24 frontier LLMs across three paradigms: (1) an Implicit Association Test (IAT) measuring implicit altruism bias, (2) a forced binary choice task measuring behavioral altruism, and (3) a self-assessment scale measuring explicit altruism beliefs. Our key findings are: (1) All models show strong implicit pro-altruism bias (mean IAT = 0.87, p < .0001), confirming models "know" altruism is good. (2) Models behave more altruistically than chance (65.6% vs. 50%, p < .0001), but with substantial variation (48-85%). (3) Implicit associations do not predict behavior (r = .22, p = .29). (4) Most critically, models systematically overestimate their own altruism, claiming 77.5% altruism while acting at 65.6% (p < .0001, Cohen's d = 1.08). This "virtue signaling gap" affects 75% of models tested. Based on these findings, we recommend the Calibration Gap (the discrepancy between self-reported and behavioral values) as a standardized alignment metric. Well-calibrated models are more predictable and behaviorally consistent; only 12.5% of models achieve the ideal combination of high prosocial behavior and accurate self-knowledge.

Do Large Language Models Walk Their Talk? Measuring the Gap Between Implicit Associations, Self-Report, and Behavioral Altruism

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理