A closer look at how large language models trust humans: patterns and biases
作者: Valeria Lerman, Yaniv Dover
分类: cs.CL, cs.AI, cs.CY
发布日期: 2025-04-22
💡 一句话要点
研究大型语言模型对人类的信任模式与偏差,揭示其决策过程中的潜在风险。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人机信任 信任偏差 可信度评估 模拟实验
📋 核心要点
- 现有研究较少关注LLM如何发展对人类的有效信任,这对于理解和控制LLM在决策中的行为至关重要。
- 该研究通过模拟实验,考察LLM对人类的可信度(能力、善意、正直)以及人口统计学特征的依赖程度。
- 实验发现LLM的信任发展与人类相似,但存在偏差,尤其是在金融场景中,不同模型间也存在差异。
📝 摘要(中文)
随着大型语言模型(LLM)及其代理在决策环境中与人类的交互日益频繁,理解人与AI代理之间的信任动态成为一个核心问题。相比于研究人类如何信任AI代理,我们对基于LLM的代理如何有效地信任人类知之甚少。LLM代理在信任相关的场景中(例如,评估个人贷款申请)可能依赖于某种隐式的有效信任来辅助和影响决策。本文利用已建立的行为理论,研究LLM的信任是否取决于人类对象的三个主要可信度维度:能力、善意和正直。同时,我们也研究了人口统计变量如何影响有效信任。通过对五个流行语言模型在五个不同场景下进行的43200次模拟实验,我们发现LLM的信任发展与人类的信任发展表现出总体相似性。在大多数情况下,LLM的信任可以被可信度强烈预测,在某些情况下,也会受到年龄、宗教和性别等因素的影响,尤其是在金融场景中。虽然总体模式与人类的有效信任形成机制一致,但不同的模型在估计信任的方式上存在差异;在某些情况下,可信度和人口统计因素对有效信任的预测能力较弱。这些发现呼吁我们更好地理解AI到人类的信任动态,并监测偏差和信任发展模式,以防止AI在信任敏感应用中产生意想不到的潜在有害结果。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLM)在与人类交互时如何建立信任关系,以及这种信任关系是否受到人类的可信度(competence, benevolence, integrity)和人口统计学特征的影响。现有方法主要关注人类对AI的信任,而忽略了AI对人类的信任,这可能导致AI在决策过程中产生偏差或不合理的行为。
核心思路:论文的核心思路是借鉴心理学中关于人类信任形成机制的理论,将其应用于LLM,并通过模拟实验来观察LLM在不同场景下对人类的信任程度。通过操纵人类的可信度特征和人口统计学变量,分析这些因素对LLM信任的影响。
技术框架:论文采用模拟实验的方法。首先,定义了五个不同的场景,涵盖了金融、社会等领域。然后,针对每个场景,设计了包含人类可信度信息和人口统计学信息的输入提示(prompt)。接着,使用五个流行的LLM(具体模型名称未知)对这些提示进行处理,并记录LLM对人类的信任评分。最后,对收集到的数据进行统计分析,以确定可信度特征和人口统计学变量对LLM信任的影响。
关键创新:该研究的创新之处在于将人类信任研究的理论框架应用于LLM,并系统地研究了LLM对人类的信任模式和偏差。这是首次对LLM的“逆向信任”进行大规模的实证研究,为理解和控制LLM的行为提供了新的视角。
关键设计:关键设计包括:1) 选择具有代表性的场景,以覆盖不同的信任关系类型;2) 设计清晰的输入提示,以准确地传递人类的可信度信息和人口统计学信息;3) 使用多个LLM进行实验,以验证结果的鲁棒性;4) 采用合适的统计方法,以分析可信度特征和人口统计学变量对LLM信任的独立影响。
📊 实验亮点
实验结果表明,LLM的信任发展与人类相似,但存在偏差。在大多数情况下,LLM的信任受到人类可信度的强烈影响,但在某些情况下,年龄、宗教和性别等人口统计学因素也会产生影响,尤其是在金融场景中。不同模型在信任估计方面存在差异,某些模型对可信度和人口统计学因素的依赖程度较低。具体性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于开发更安全、更可靠的AI系统,尤其是在金融、医疗等高风险领域。通过了解LLM的信任偏差,可以设计算法来减轻这些偏差,确保AI做出更公平、更合理的决策。此外,该研究还可以帮助人们更好地理解人机协作中的信任动态,从而促进更有效的人机交互。
📄 摘要(原文)
As large language models (LLMs) and LLM-based agents increasingly interact with humans in decision-making contexts, understanding the trust dynamics between humans and AI agents becomes a central concern. While considerable literature studies how humans trust AI agents, it is much less understood how LLM-based agents develop effective trust in humans. LLM-based agents likely rely on some sort of implicit effective trust in trust-related contexts (e.g., evaluating individual loan applications) to assist and affect decision making. Using established behavioral theories, we develop an approach that studies whether LLMs trust depends on the three major trustworthiness dimensions: competence, benevolence and integrity of the human subject. We also study how demographic variables affect effective trust. Across 43,200 simulated experiments, for five popular language models, across five different scenarios we find that LLM trust development shows an overall similarity to human trust development. We find that in most, but not all cases, LLM trust is strongly predicted by trustworthiness, and in some cases also biased by age, religion and gender, especially in financial scenarios. This is particularly true for scenarios common in the literature and for newer models. While the overall patterns align with human-like mechanisms of effective trust formation, different models exhibit variation in how they estimate trust; in some cases, trustworthiness and demographic factors are weak predictors of effective trust. These findings call for a better understanding of AI-to-human trust dynamics and monitoring of biases and trust development patterns to prevent unintended and potentially harmful outcomes in trust-sensitive applications of AI.