When Names Change Verdicts: Intervention Consistency Reveals Systematic Bias in LLM Decision-Making
作者: Abhinaba Basu, Pavan Chakraborty
分类: cs.CL, cs.AI, cs.CY, cs.LG
发布日期: 2026-03-19
💡 一句话要点
提出ICE-Guard框架以检测LLM决策中的系统性偏见
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 系统性偏见 干预一致性测试 高风险决策 偏见检测 结构化分解 公平性评估
📋 核心要点
- 现有方法对LLM在高风险决策中的虚假特征依赖缺乏系统性分析,尤其是对权威和框架偏见的关注不足。
- ICE-Guard框架通过干预一致性测试,系统检测LLM对人口统计、权威和框架特征的依赖,提供了一种新的评估方法。
- 实验结果显示,ICE-Guard显著降低了LLM的偏见,特别是在金融领域,权威偏见高达22.6%,而通过结构化分解方法翻转率减少了49%。
📝 摘要(中文)
大型语言模型(LLMs)在高风险决策中的应用日益增加,但其对虚假特征的敏感性尚未得到充分研究。本文提出ICE-Guard框架,通过干预一致性测试检测三种虚假特征依赖:人口统计(姓名/种族交换)、权威(资质/声望交换)和框架(正面/负面重述)。在涵盖10个高风险领域的3000个案例中,我们评估了来自8个家族的11个LLM,发现权威偏见(平均5.8%)和框架偏见(5.0%)显著高于人口统计偏见(2.2%),挑战了该领域对人口统计的狭隘关注。此外,偏见集中在特定领域,金融领域显示22.6%的权威偏见,而刑事司法仅为2.8%。通过结构化分解,LLM提取特征并由确定性标准决定,翻转率减少高达100%。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在高风险决策中对虚假特征的依赖问题,现有方法主要集中于人口统计偏见,忽视了权威和框架偏见的影响。
核心思路:ICE-Guard框架通过干预一致性测试,系统性地检测和量化LLM对不同虚假特征的依赖,提供了一种全面的评估工具。
技术框架:ICE-Guard的整体架构包括数据收集、干预一致性测试、偏见检测和减轻策略。主要模块包括特征提取、翻转率计算和迭代提示修补。
关键创新:最重要的技术创新在于引入了干预一致性测试,能够有效识别和量化LLM在决策中对权威和框架特征的依赖,这与现有方法的单一人口统计分析形成鲜明对比。
关键设计:在技术细节上,ICE-Guard采用结构化分解方法,利用确定性标准来决定特征提取,显著降低翻转率,且在多个模型中实现了中位数49%的偏见减少。实验中使用的损失函数和参数设置经过精心设计,以确保模型的稳定性和准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ICE-Guard框架在11个LLM中实现了高达78%的累积偏见减少,特别是在金融领域,权威偏见达到22.6%。通过结构化分解方法,翻转率在9个模型中中位数减少了49%,显示出显著的性能提升。
🎯 应用场景
该研究的潜在应用领域包括金融、刑事司法和医疗等高风险决策场景,能够帮助开发更公平和透明的决策系统。通过识别和减轻偏见,ICE-Guard框架有助于提高LLM在实际应用中的可信度和可靠性,推动相关领域的伦理发展。
📄 摘要(原文)
Large language models (LLMs) are increasingly used for high-stakes decisions, yet their susceptibility to spurious features remains poorly characterized. We introduce ICE-Guard, a framework applying intervention consistency testing to detect three types of spurious feature reliance: demographic (name/race swaps), authority (credential/prestige swaps), and framing (positive/negative restatements). Across 3,000 vignettes spanning 10 high-stakes domains, we evaluate 11 LLMs from 8 families and find that (1) authority bias (mean 5.8%) and framing bias (5.0%) substantially exceed demographic bias (2.2%), challenging the field's narrow focus on demographics; (2) bias concentrates in specific domains -- finance shows 22.6% authority bias while criminal justice shows only 2.8%; (3) structured decomposition, where the LLM extracts features and a deterministic rubric decides, reduces flip rates by up to 100% (median 49% across 9 models). We demonstrate an ICE-guided detect-diagnose-mitigate-verify loop achieving cumulative 78% bias reduction via iterative prompt patching. Validation against real COMPAS recidivism data shows COMPAS-derived flip rates exceed pooled synthetic rates, suggesting our benchmark provides a conservative estimate of real-world bias. Code and data are publicly available.