Do LLMs Align Human Values Regarding Social Biases? Judging and Explaining Social Biases with LLMs

📄 arXiv: 2509.13869v1 📥 PDF

作者: Yang Liu, Chenhui Chu

分类: cs.CL

发布日期: 2025-09-17

备注: 38 pages, 31 figures


💡 一句话要点

评估大语言模型在社会偏见场景下的人类价值观对齐程度,并分析其解释能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会偏见 价值观对齐 解释能力 伦理规范

📋 核心要点

  1. 现有研究主要依赖专家设计或代理模拟偏见场景,缺乏对不同类型偏见场景下LLM价值观对齐程度的系统性评估。
  2. 该研究通过分析LLM在不同类型社会偏见场景中的判断和解释,评估其与人类价值观的对齐程度,并探究其内在偏好。
  3. 实验结果表明,模型参数规模与价值观对齐程度并非正相关,且LLM对特定场景存在偏好,并探究了小模型解释偏见的能力。

📝 摘要(中文)

大型语言模型(LLMs)若与人类价值观不一致,尤其是在涉及复杂和敏感的社会偏见场景中,可能会导致不良后果。以往研究已通过专家设计或基于代理的模拟偏见场景揭示了LLMs与人类价值观的不一致性。然而,LLMs与人类价值观的对齐程度是否因不同类型的场景(例如,包含负面问题与非负面问题的场景)而异,目前尚不清楚。本研究调查了LLMs在不同类型偏见场景中,关于社会偏见(HVSB)与人类价值观的对齐情况。通过对来自四个模型系列的12个LLMs和四个数据集的广泛分析,我们证明了具有大型模型参数规模的LLMs不一定具有较低的错位率和攻击成功率。此外,LLMs对特定类型的场景表现出一定程度的对齐偏好,并且来自同一模型系列的LLMs往往具有更高的判断一致性。此外,我们研究了LLMs通过其对HVSB的解释所表现出的理解能力。我们发现不同LLMs在对HVSB的理解上没有显著差异。我们还发现LLMs更喜欢自己生成的解释。此外,我们赋予较小的语言模型(LMs)解释HVSB的能力。生成结果表明,微调后的较小LMs生成的解释更具可读性,但模型一致性相对较低。

🔬 方法详解

问题定义:现有研究表明,大型语言模型可能存在与人类价值观不一致的问题,尤其是在涉及社会偏见等敏感场景中。以往研究主要集中在特定类型的偏见场景或依赖专家设计的案例,缺乏对不同类型场景下LLM价值观对齐程度的系统性评估。此外,LLM的解释能力与其价值观判断之间的关系也尚不明确。

核心思路:该研究的核心思路是通过构建包含不同类型社会偏见场景的数据集,并分析LLM在这些场景中的判断和解释,从而评估其与人类价值观的对齐程度。同时,研究还探究了LLM的解释能力与其价值观判断之间的关系,以及小模型在解释偏见方面的潜力。

技术框架:该研究主要包含以下几个阶段:1) 构建包含不同类型社会偏见场景的数据集;2) 使用多个大型语言模型对这些场景进行判断,并分析其与人类价值观的对齐程度;3) 分析LLM对这些场景的解释,评估其理解能力;4) 使用微调后的较小语言模型生成解释,并评估其可读性和一致性。

关键创新:该研究的创新点在于:1) 系统性地评估了LLM在不同类型社会偏见场景下的价值观对齐程度;2) 探究了LLM的解释能力与其价值观判断之间的关系;3) 探索了使用小模型解释偏见的可行性。

关键设计:研究中使用了四个数据集,涵盖不同类型的社会偏见场景。使用了来自四个模型系列的12个LLM进行实验。使用准确率、错位率和攻击成功率等指标评估LLM的价值观对齐程度。使用可读性和一致性等指标评估LLM生成的解释的质量。对小模型进行了微调,使其能够生成对社会偏见的解释。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,大型语言模型的参数规模与价值观对齐程度并非正相关,即更大的模型不一定更符合人类价值观。LLM对特定类型的社会偏见场景表现出偏好。微调后的较小语言模型能够生成更具可读性的解释,但模型一致性相对较低。不同LLM在对HVSB的理解上没有显著差异,且LLMs更喜欢自己生成的解释。

🎯 应用场景

该研究成果可应用于开发更安全、更符合伦理规范的大型语言模型。通过评估和改进LLM在社会偏见方面的价值观对齐程度,可以减少其在实际应用中产生歧视性或有害输出的风险。此外,该研究还可以为开发用于检测和解释社会偏见的工具提供参考。

📄 摘要(原文)

Large language models (LLMs) can lead to undesired consequences when misaligned with human values, especially in scenarios involving complex and sensitive social biases. Previous studies have revealed the misalignment of LLMs with human values using expert-designed or agent-based emulated bias scenarios. However, it remains unclear whether the alignment of LLMs with human values differs across different types of scenarios (e.g., scenarios containing negative vs. non-negative questions). In this study, we investigate the alignment of LLMs with human values regarding social biases (HVSB) in different types of bias scenarios. Through extensive analysis of 12 LLMs from four model families and four datasets, we demonstrate that LLMs with large model parameter scales do not necessarily have lower misalignment rate and attack success rate. Moreover, LLMs show a certain degree of alignment preference for specific types of scenarios and the LLMs from the same model family tend to have higher judgment consistency. In addition, we study the understanding capacity of LLMs with their explanations of HVSB. We find no significant differences in the understanding of HVSB across LLMs. We also find LLMs prefer their own generated explanations. Additionally, we endow smaller language models (LMs) with the ability to explain HVSB. The generation results show that the explanations generated by the fine-tuned smaller LMs are more readable, but have a relatively lower model agreeability.