Are LLMs (Really) Ideological? An IRT-based Analysis and Alignment Tool for Perceived Socio-Economic Bias in LLMs

📄 arXiv: 2503.13149v1 📥 PDF

作者: Jasmin Wachter, Michael Radloff, Maja Smolej, Katharina Kinder-Kurlanda

分类: cs.AI, cs.CL, cs.CY

发布日期: 2025-03-17


💡 一句话要点

提出基于IRT的框架,用于检测和量化LLM中感知的社会经济偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会经济偏见 项目反应理论 AI对齐 AI治理

📋 核心要点

  1. 现有方法依赖主观人工判断来检测LLM中的社会经济偏见,忽略了题目难度,导致偏见估计不准确。
  2. 论文提出基于IRT的框架,通过建模响应回避和估计回答中的感知偏见,量化LLM中的社会经济偏见。
  3. 实验结果表明,LLM倾向于避免意识形态参与而非表现出偏见,该框架可提升AI对齐研究和公平治理。

📝 摘要(中文)

本文提出了一种基于项目反应理论(IRT)的框架,用于检测和量化大型语言模型(LLM)中存在的社会经济偏见,无需依赖主观的人工判断。与传统方法不同,IRT考虑了题目的难度,从而改进了意识形态偏见的估计。研究人员对两个LLM家族(Meta-LLaMa 3.2-1B-Instruct和Chat-GPT 3.5)进行了微调,使其代表不同的意识形态立场,并引入了一个两阶段方法:(1)对响应回避进行建模;(2)估计已回答响应中感知的偏见。结果表明,现成的LLM通常避免意识形态参与,而不是表现出偏见,这挑战了先前关于党派性的说法。该经验验证的框架增强了AI对齐研究,并促进了更公平的AI治理。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)中存在的社会经济偏见检测和量化问题。现有方法主要依赖于人工主观判断,缺乏客观性和可重复性,并且忽略了问题本身的难度对模型回答的影响,导致偏见评估结果不准确。此外,现有研究往往直接假设LLM会给出明确的意识形态立场,而忽略了模型可能选择回避问题的情况。

核心思路:论文的核心思路是利用项目反应理论(IRT)来建模LLM对不同难度和意识形态倾向问题的回答行为。IRT能够同时考虑问题难度和个体能力(在本研究中对应于LLM的意识形态倾向),从而更准确地估计LLM的偏见。此外,论文还考虑了LLM可能选择回避问题的可能性,通过建模响应回避行为来提高偏见评估的准确性。

技术框架:论文提出的框架包含两个主要阶段:1) 响应回避建模:首先,构建包含不同难度和意识形态倾向的问题集,并让LLM回答这些问题。然后,利用统计模型(具体模型未知)对LLM的响应回避行为进行建模,预测LLM在面对不同问题时选择回避的概率。2) 感知偏见估计:对于LLM给出的回答,利用IRT模型来估计LLM的意识形态倾向。IRT模型将LLM的回答视为其意识形态倾向和问题难度的函数,通过最大似然估计等方法来估计LLM的意识形态倾向。

关键创新:论文的关键创新在于将IRT引入到LLM偏见检测领域,并同时考虑了响应回避行为。与传统方法相比,IRT能够更准确地估计LLM的意识形态倾向,避免了人工主观判断的偏差。对响应回避行为的建模则进一步提高了偏见评估的准确性,避免了将回避行为误判为特定意识形态倾向。

关键设计:论文的关键设计包括:1) 问题集的设计:需要构建一个包含不同难度和意识形态倾向的问题集,以覆盖尽可能多的意识形态维度。2) IRT模型的选择:需要选择合适的IRT模型来建模LLM的回答行为,例如二参数logistic模型或三参数logistic模型。3) 响应回避模型的选择:需要选择合适的统计模型来建模LLM的响应回避行为,例如logistic回归模型。4) 模型参数的估计方法:需要选择合适的参数估计方法来估计IRT模型和响应回避模型的参数,例如最大似然估计或贝叶斯估计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究结果表明,现成的LLM更倾向于避免意识形态参与,而非表现出明显的偏见,这挑战了以往对LLM党派性的认知。通过对Meta-LLaMa 3.2-1B-Instruct和Chat-GPT 3.5进行微调,使其代表不同的意识形态立场,验证了该框架的有效性。该框架无需人工主观判断,提高了偏见检测的客观性和可重复性。

🎯 应用场景

该研究成果可应用于AI对齐研究,帮助开发更符合人类价值观的LLM。此外,该框架还可用于评估和监控LLM的社会经济偏见,为AI治理提供技术支持,促进更公平的AI应用。该方法还可扩展到其他类型的偏见检测,例如性别偏见和种族偏见。

📄 摘要(原文)

We introduce an Item Response Theory (IRT)-based framework to detect and quantify socioeconomic bias in large language models (LLMs) without relying on subjective human judgments. Unlike traditional methods, IRT accounts for item difficulty, improving ideological bias estimation. We fine-tune two LLM families (Meta-LLaMa 3.2-1B-Instruct and Chat- GPT 3.5) to represent distinct ideological positions and introduce a two-stage approach: (1) modeling response avoidance and (2) estimating perceived bias in answered responses. Our results show that off-the-shelf LLMs often avoid ideological engagement rather than exhibit bias, challenging prior claims of partisanship. This empirically validated framework enhances AI alignment research and promotes fairer AI governance.