When Names Change Verdicts: Intervention Consistency Reveals Systematic Bias in LLM Decision-Making

作者: Abhinaba Basu, Pavan Chakraborty

分类: cs.CL, cs.AI, cs.CY, cs.LG

发布日期: 2026-03-19

💡 一句话要点

提出ICE-Guard框架以检测LLM决策中的系统性偏见

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 系统性偏见 干预一致性测试 高风险决策 偏见检测 结构化分解 公平性评估

📋 核心要点

现有方法对LLM在高风险决策中的虚假特征依赖缺乏系统性分析，尤其是对权威和框架偏见的关注不足。
ICE-Guard框架通过干预一致性测试，系统检测LLM对人口统计、权威和框架特征的依赖，提供了一种新的评估方法。
实验结果显示，ICE-Guard显著降低了LLM的偏见，特别是在金融领域，权威偏见高达22.6%，而通过结构化分解方法翻转率减少了49%。

📝 摘要（中文）

大型语言模型（LLMs）在高风险决策中的应用日益增加，但其对虚假特征的敏感性尚未得到充分研究。本文提出ICE-Guard框架，通过干预一致性测试检测三种虚假特征依赖：人口统计（姓名/种族交换）、权威（资质/声望交换）和框架（正面/负面重述）。在涵盖10个高风险领域的3000个案例中，我们评估了来自8个家族的11个LLM，发现权威偏见（平均5.8%）和框架偏见（5.0%）显著高于人口统计偏见（2.2%），挑战了该领域对人口统计的狭隘关注。此外，偏见集中在特定领域，金融领域显示22.6%的权威偏见，而刑事司法仅为2.8%。通过结构化分解，LLM提取特征并由确定性标准决定，翻转率减少高达100%。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在高风险决策中对虚假特征的依赖问题，现有方法主要集中于人口统计偏见，忽视了权威和框架偏见的影响。

核心思路：ICE-Guard框架通过干预一致性测试，系统性地检测和量化LLM对不同虚假特征的依赖，提供了一种全面的评估工具。

技术框架：ICE-Guard的整体架构包括数据收集、干预一致性测试、偏见检测和减轻策略。主要模块包括特征提取、翻转率计算和迭代提示修补。

关键创新：最重要的技术创新在于引入了干预一致性测试，能够有效识别和量化LLM在决策中对权威和框架特征的依赖，这与现有方法的单一人口统计分析形成鲜明对比。

关键设计：在技术细节上，ICE-Guard采用结构化分解方法，利用确定性标准来决定特征提取，显著降低翻转率，且在多个模型中实现了中位数49%的偏见减少。实验中使用的损失函数和参数设置经过精心设计，以确保模型的稳定性和准确性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ICE-Guard框架在11个LLM中实现了高达78%的累积偏见减少，特别是在金融领域，权威偏见达到22.6%。通过结构化分解方法，翻转率在9个模型中中位数减少了49%，显示出显著的性能提升。

🎯 应用场景

该研究的潜在应用领域包括金融、刑事司法和医疗等高风险决策场景，能够帮助开发更公平和透明的决策系统。通过识别和减轻偏见，ICE-Guard框架有助于提高LLM在实际应用中的可信度和可靠性，推动相关领域的伦理发展。

📄 摘要（原文）

Large language models (LLMs) are increasingly used for high-stakes decisions, yet their susceptibility to spurious features remains poorly characterized. We introduce ICE-Guard, a framework applying intervention consistency testing to detect three types of spurious feature reliance: demographic (name/race swaps), authority (credential/prestige swaps), and framing (positive/negative restatements). Across 3,000 vignettes spanning 10 high-stakes domains, we evaluate 11 LLMs from 8 families and find that (1) authority bias (mean 5.8%) and framing bias (5.0%) substantially exceed demographic bias (2.2%), challenging the field's narrow focus on demographics; (2) bias concentrates in specific domains -- finance shows 22.6% authority bias while criminal justice shows only 2.8%; (3) structured decomposition, where the LLM extracts features and a deterministic rubric decides, reduces flip rates by up to 100% (median 49% across 9 models). We demonstrate an ICE-guided detect-diagnose-mitigate-verify loop achieving cumulative 78% bias reduction via iterative prompt patching. Validation against real COMPAS recidivism data shows COMPAS-derived flip rates exceed pooled synthetic rates, suggesting our benchmark provides a conservative estimate of real-world bias. Code and data are publicly available.

When Names Change Verdicts: Intervention Consistency Reveals Systematic Bias in LLM Decision-Making

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理