Language Models Exhibit Inconsistent Biases Towards Algorithmic Agents and Human Experts

作者: Jessica Y. Bo, Lillio Mok, Ashton Anderson

分类: cs.AI

发布日期: 2026-02-25

备注: Second Conference of the International Association for Safe and Ethical Artificial Intelligence (IASEAI 2026)

💡 一句话要点

大型语言模型在算法代理与人类专家之间表现出不一致的偏见

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 算法偏见 算法厌恶 决策任务 行为经济学 AI安全 公平性 可信度

📋 核心要点

现有研究表明，人类决策者对算法存在偏见（算法厌恶），但大型语言模型（LLM）在类似情境下的偏见情况尚不明确。
本文通过行为经济学实验范式，考察LLM在面对人类专家和算法代理时，在陈述偏好和揭示偏好两种任务呈现方式下的决策偏好。
实验结果表明，LLM在评估可信度时偏向人类专家，但在激励性投注中却偏向算法，即使算法表现更差，揭示了LLM偏见的不一致性。

📝 摘要（中文）

大型语言模型越来越多地应用于需要处理来自各种来源信息的决策任务中，这些来源包括人类专家和其他算法代理。本文研究了LLM如何权衡这些不同来源提供的信息。我们考虑了算法厌恶这一被广泛研究的现象，即人类决策者对算法的预测存在偏见。借鉴行为经济学的实验范式，我们评估了八种不同的LLM在委托决策任务时，当受托人被描述为人类专家或算法代理时，LLM的表现。为了涵盖不同的评估形式，我们使用两种任务呈现方式进行研究：通过直接询问对代理的信任程度来模拟陈述偏好，以及通过提供人类专家和算法代理的上下文表现示例来模拟揭示偏好。当被提示评估人类专家和算法在不同任务中的可信度时，LLM给予人类专家更高的评分，这与之前人类受访者的结果相关。然而，当展示人类专家和算法的表现，并要求在两者之间进行激励性投注时，LLM不成比例地选择算法，即使算法的表现明显更差。这些不一致的结果表明，LLM可能对人类和算法编码了不一致的偏见，在将它们部署在高风险场景中时需要仔细考虑。此外，我们讨论了LLM对任务呈现形式的敏感性，这应该在AI安全评估的鲁棒性方面受到广泛审查。

🔬 方法详解

问题定义：本文旨在研究大型语言模型（LLM）在决策任务中，面对人类专家和算法代理时，是否存在偏见以及偏见是否一致。现有研究表明人类存在“算法厌恶”，即对算法的预测存在偏见。然而，LLM作为一种新型决策辅助工具，其偏见模式尚不明确，可能影响其在高风险场景中的应用。

核心思路：本文借鉴行为经济学的实验范式，通过设计两种任务呈现方式（陈述偏好和揭示偏好）来考察LLM的决策偏好。陈述偏好通过直接询问LLM对人类专家和算法代理的信任程度来评估，而揭示偏好则通过提供两者表现的上下文示例，并让LLM进行激励性投注来评估。这种设计旨在揭示LLM在不同情境下的偏见是否一致。

技术框架：本文主要采用实验研究方法，没有涉及复杂的模型架构。整体流程如下：1. 选择多个LLM作为研究对象；2. 设计包含人类专家和算法代理的决策任务；3. 分别采用陈述偏好和揭示偏好两种方式呈现任务；4. 分析LLM在两种任务下的决策结果，比较其对人类专家和算法代理的偏好差异。

关键创新：本文的创新在于首次系统性地研究了LLM在面对人类专家和算法代理时的偏见，并揭示了LLM偏见的不一致性。以往研究主要关注人类的算法厌恶，而本文将研究对象扩展到LLM，并发现LLM在不同任务呈现方式下表现出不同的偏见，这为LLM的公平性和安全性研究提供了新的视角。

关键设计：关键设计在于两种任务呈现方式：陈述偏好通过直接询问信任度来评估LLM的主观偏好；揭示偏好通过激励性投注来评估LLM的实际决策行为。这种对比设计能够有效揭示LLM在不同情境下的偏见差异。此外，任务的设计需要保证人类专家和算法代理的表现具有可比性，以便准确评估LLM的偏好。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在陈述偏好任务中，LLM给予人类专家更高的信任评分，与人类受访者的结果一致。然而，在揭示偏好任务中，LLM却不成比例地选择算法代理进行投注，即使算法的表现明显更差。这种偏见的不一致性在多个LLM中都得到了验证，表明LLM可能存在潜在的偏见风险。

🎯 应用场景

该研究结果对于LLM在高风险决策场景中的应用具有重要意义，例如医疗诊断、金融投资等。理解LLM的偏见有助于开发更公平、更可靠的AI系统，并为AI伦理和安全提供指导。未来的研究可以进一步探索LLM偏见的来源和缓解方法，例如通过调整训练数据或设计更合理的模型架构。

📄 摘要（原文）

Large language models are increasingly used in decision-making tasks that require them to process information from a variety of sources, including both human experts and other algorithmic agents. How do LLMs weigh the information provided by these different sources? We consider the well-studied phenomenon of algorithm aversion, in which human decision-makers exhibit bias against predictions from algorithms. Drawing upon experimental paradigms from behavioural economics, we evaluate how eightdifferent LLMs delegate decision-making tasks when the delegatee is framed as a human expert or an algorithmic agent. To be inclusive of different evaluation formats, we conduct our study with two task presentations: stated preferences, modeled through direct queries about trust towards either agent, and revealed preferences, modeled through providing in-context examples of the performance of both agents. When prompted to rate the trustworthiness of human experts and algorithms across diverse tasks, LLMs give higher ratings to the human expert, which correlates with prior results from human respondents. However, when shown the performance of a human expert and an algorithm and asked to place an incentivized bet between the two, LLMs disproportionately choose the algorithm, even when it performs demonstrably worse. These discrepant results suggest that LLMs may encode inconsistent biases towards humans and algorithms, which need to be carefully considered when they are deployed in high-stakes scenarios. Furthermore, we discuss the sensitivity of LLMs to task presentation formats that should be broadly scrutinized in evaluation robustness for AI safety.

Language Models Exhibit Inconsistent Biases Towards Algorithmic Agents and Human Experts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理