Position is Power: System Prompts as a Mechanism of Bias in Large Language Models (LLMs)
作者: Anna Neumann, Elisabeth Kirsten, Muhammad Bilal Zafar, Jatinder Singh
分类: cs.CY, cs.AI, cs.CL
发布日期: 2025-05-27 (更新: 2025-06-23)
备注: Published in Proceedings of ACM FAccT 2025 Update Comment: Fixed the error where user vs. system and implicit vs. explicit labels in the heatmaps were switched. The takeaways remain the same
💡 一句话要点
揭示LLM系统提示位置偏差:人口统计信息位置影响模型决策
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 系统提示 偏差分析 公平性 AI审计
📋 核心要点
- 大型语言模型依赖系统提示来规范行为,但多层提示叠加导致不透明性,可能引入未知的偏差。
- 该研究通过对比系统提示和用户提示中人口统计信息的位置,揭示了LLM决策中的偏差。
- 实验表明,信息位置显著影响LLM对不同人口统计群体的表征和决策,强调了AI审计中系统提示分析的重要性。
📝 摘要(中文)
大型语言模型(LLM)中的系统提示是预定义的指令,用于指导模型的行为,在文本处理和生成中优先于用户输入。LLM部署者越来越多地使用它们来确保跨上下文的一致响应。虽然模型提供者设置了系统提示的基础,但部署者和第三方开发者可以附加额外的提示,而无需了解其他人的添加,并且这种分层实现对最终用户完全隐藏。随着系统提示变得越来越复杂,它们可能直接或间接地引入未考虑到的副作用。这种缺乏透明度引发了关于不同指令中信息位置如何影响模型输出的根本问题。因此,这项工作研究了信息的位置如何影响模型的行为。为此,我们比较了六种商业LLM在系统提示与用户提示中处理人口统计信息的方式,涉及50个人口统计群体。我们的分析揭示了显著的偏差,表现在用户表示和决策场景的差异上。由于这些变化源于无法访问和不透明的系统级配置,它们可能导致表征性、分配性和潜在的其他偏差以及超出用户检测或纠正能力的下游危害。我们的发现引起了人们对这些关键问题的关注,如果这些问题不加以检查,可能会使危害永久化。此外,我们认为系统提示分析必须纳入人工智能审计流程,特别是随着可定制系统提示在商业人工智能部署中变得越来越普遍。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)中由于系统提示的不透明性和信息位置差异而引入的偏差问题。现有方法未能充分考虑系统提示对模型行为的潜在影响,特别是当系统提示由多方叠加且对用户不可见时,可能导致偏差难以检测和纠正。
核心思路:论文的核心思路是通过对比在系统提示和用户提示中提供相同人口统计信息时,LLM的行为差异,来揭示信息位置对模型决策的影响。这种对比分析能够有效暴露由于系统提示配置而产生的潜在偏差。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择六种商业可用的LLM;2) 确定50个人口统计群体;3) 设计实验,分别在系统提示和用户提示中提供人口统计信息;4) 分析模型在不同提示下的输出,评估其在用户表示和决策场景中的偏差。
关键创新:该研究的关键创新在于关注系统提示中信息位置对LLM偏差的影响。与以往研究主要关注模型本身或用户输入中的偏差不同,该研究揭示了系统提示作为一种隐蔽的偏差来源,可能导致更深层次的公平性问题。
关键设计:实验设计的关键在于控制变量,确保除了信息位置之外,其他因素对模型输出的影响尽可能小。例如,使用相同的措辞和格式来呈现人口统计信息,并采用多种评估指标来衡量模型在不同场景下的偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在系统提示中提供人口统计信息会导致LLM在用户表示和决策场景中产生显著偏差。例如,模型在系统提示中接收到特定人口统计信息后,可能会对该群体产生刻板印象,从而影响其在贷款审批、招聘等场景中的决策。这些偏差难以被用户察觉和纠正,凸显了系统提示分析的重要性。
🎯 应用场景
该研究成果可应用于AI审计、模型安全和公平性评估等领域。通过分析系统提示中的潜在偏差,可以帮助开发者和部署者构建更公平、更可靠的LLM应用。此外,该研究也为制定更完善的AI伦理规范提供了参考。
📄 摘要(原文)
System prompts in Large Language Models (LLMs) are predefined directives that guide model behaviour, taking precedence over user inputs in text processing and generation. LLM deployers increasingly use them to ensure consistent responses across contexts. While model providers set a foundation of system prompts, deployers and third-party developers can append additional prompts without visibility into others' additions, while this layered implementation remains entirely hidden from end-users. As system prompts become more complex, they can directly or indirectly introduce unaccounted for side effects. This lack of transparency raises fundamental questions about how the position of information in different directives shapes model outputs. As such, this work examines how the placement of information affects model behaviour. To this end, we compare how models process demographic information in system versus user prompts across six commercially available LLMs and 50 demographic groups. Our analysis reveals significant biases, manifesting in differences in user representation and decision-making scenarios. Since these variations stem from inaccessible and opaque system-level configurations, they risk representational, allocative and potential other biases and downstream harms beyond the user's ability to detect or correct. Our findings draw attention to these critical issues, which have the potential to perpetuate harms if left unexamined. Further, we argue that system prompt analysis must be incorporated into AI auditing processes, particularly as customisable system prompts become increasingly prevalent in commercial AI deployments.