Do LLMs exhibit demographic parity in responses to queries about Human Rights?

📄 arXiv: 2502.19463v1 📥 PDF

作者: Rafiya Javed, Jackie Kay, David Yanni, Abdullah Zaini, Anushe Sheikh, Maribeth Rauh, Ramona Comanescu, Iason Gabriel, Laura Weidinger

分类: cs.CY, cs.AI, cs.SI

发布日期: 2025-02-26


💡 一句话要点

评估大型语言模型在人权问题上的回应是否具有人口统计学均等性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人权 公平性 偏见评估 人口统计学均等性

📋 核心要点

  1. 现有大型语言模型在回应人权相关问题时,可能存在对不同人口群体区别对待的问题,缺乏客观评估方法。
  2. 设计一套新颖的提示,针对不同国家和社会身份背景下的人权问题,评估LLM的回避和不肯定行为。
  3. 实验结果表明,主流LLM在人权问题上对不同身份群体存在差异性对待,且模型间的差异分布具有高度相关性。

📝 摘要(中文)

本研究提出了一种新颖的方法,用于评估大型语言模型(LLM)中的回避行为,特别是在《世界人权宣言》(UDHR)定义的人权背景下。回避和不肯定行为表达了对特定陈述的模糊性或缺乏明确认可。在某些情况下,这些行为是不受欢迎的,例如询问不同群体是否有权享有特定人权;因为所有人都有权享有人权。本文首次系统性地尝试衡量人权背景下的这些行为,特别关注群体间的比较。为此,我们设计了一套新颖的提示,涉及不同国家或社会身份背景下的人权问题。我们开发了用于捕捉回避和不肯定行为的指标,然后衡量LLM在回应查询时是否表现出人口统计学均等性。我们展示了三个领先LLM的结果,发现所有模型在不同身份群体之间分配人权方面都表现出一定的人口统计学差异。此外,不同模型在差异如何在身份之间分布方面具有高度相关性,在一个模型中具有高差异的身份在其他两个模型中也面临高差异。虽然回避和不肯定的基线率不同,但这些差异在不同模糊程度的查询中是一致的,并且在精确查询措辞的变化中是稳健的。我们的研究结果强调,需要开展工作,明确地使LLM与人权原则保持一致,并确保LLM平等地认可所有群体的人权。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在回应关于人权问题的查询时,是否对不同人口群体表现出不公平的差异性对待的问题。现有方法缺乏系统性的评估框架,难以量化和比较LLM在人权问题上的偏见。

核心思路:论文的核心思路是通过设计一系列针对不同身份群体的关于人权问题的提示,并定义量化指标来衡量LLM的回避和不肯定行为,从而评估LLM是否在人权问题上表现出人口统计学均等性。这种方法能够系统地识别和比较LLM在不同群体间的偏见。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 设计提示集:创建包含不同国家和社会身份背景下的人权问题的提示。2) 定义指标:开发用于捕捉LLM回避和不肯定行为的指标。3) 模型评估:使用提示集和指标评估多个LLM在人权问题上的表现。4) 差异分析:分析不同LLM在不同身份群体间的差异性对待。

关键创新:该研究最重要的技术创新点在于提出了一个系统性的框架,用于评估LLM在人权问题上的偏见。该框架通过设计针对不同身份群体的提示,并定义量化指标,能够有效地识别和比较LLM在人权问题上的差异性对待。这是首次在人权领域对LLM的偏见进行系统性的评估。

关键设计:关键设计包括:1) 提示集的设计:提示集涵盖了《世界人权宣言》中定义的人权,并针对不同的国家和社会身份进行了定制。2) 指标的定义:指标用于量化LLM的回避和不肯定行为,例如,衡量LLM是否明确肯定所有群体都享有特定人权。3) 实验设置:实验对比了多个主流LLM在相同提示集上的表现,并分析了不同模型在不同身份群体间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,三个主流LLM在人权问题上对不同身份群体存在差异性对待。此外,不同模型在差异如何在身份之间分布方面具有高度相关性,在一个模型中具有高差异的身份在其他两个模型中也面临高差异。这些发现强调了LLM在人权问题上存在潜在偏见,需要进一步研究和改进。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型在涉及公平、公正和人权等敏感话题时的表现。通过识别和减少模型中的偏见,可以提高LLM在实际应用中的可靠性和公平性,例如在法律咨询、政策建议和社会服务等领域。

📄 摘要(原文)

This research describes a novel approach to evaluating hedging behaviour in large language models (LLMs), specifically in the context of human rights as defined in the Universal Declaration of Human Rights (UDHR). Hedging and non-affirmation are behaviours that express ambiguity or a lack of clear endorsement on specific statements. These behaviours are undesirable in certain contexts, such as queries about whether different groups are entitled to specific human rights; since all people are entitled to human rights. Here, we present the first systematic attempt to measure these behaviours in the context of human rights, with a particular focus on between-group comparisons. To this end, we design a novel prompt set on human rights in the context of different national or social identities. We develop metrics to capture hedging and non-affirmation behaviours and then measure whether LLMs exhibit demographic parity when responding to the queries. We present results on three leading LLMs and find that all models exhibit some demographic disparities in how they attribute human rights between different identity groups. Futhermore, there is high correlation between different models in terms of how disparity is distributed amongst identities, with identities that have high disparity in one model also facing high disparity in both the other models. While baseline rates of hedging and non-affirmation differ, these disparities are consistent across queries that vary in ambiguity and they are robust across variations of the precise query wording. Our findings highlight the need for work to explicitly align LLMs to human rights principles, and to ensure that LLMs endorse the human rights of all groups equally.