Humans overrely on overconfident language models, across languages

📄 arXiv: 2507.06306v2 📥 PDF

作者: Neil Rathi, Dan Jurafsky, Kaitlyn Zhou

分类: cs.CL, cs.AI, cs.HC

发布日期: 2025-07-08 (更新: 2025-08-08)

备注: camera ready


💡 一句话要点

研究表明,多语言环境下人类过度依赖语言模型,且易受其过度自信表达的影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多语言处理 认知标记 过度自信 人类依赖 跨文化差异 模型校准

📋 核心要点

  1. 大型语言模型在全球部署,但其跨语言的校准和不确定性表达存在问题,可能导致用户过度依赖。
  2. 该研究分析了五种语言中LLM的认知标记分布和人类依赖率,揭示了跨语言的过度自信和过度依赖风险。
  3. 实验发现,LLM在多种语言中都表现出过度自信,且人类在不同语言中对不确定性表达的信任程度存在差异。

📝 摘要(中文)

随着大型语言模型(LLM)在全球范围内的部署,确保其在各种语言中的响应都经过校准,以准确传达不确定性和局限性至关重要。先前的工作表明,LLM在英语中存在语言上的过度自信,导致用户过度依赖自信的生成结果。然而,认知标记(例如,“我认为是”)的使用和解释在不同语言之间存在显著差异。本文研究了五种语言中多语言语言(误)校准、过度自信和过度依赖的风险,以评估LLM在全球环境中的安全性。研究发现,各种语言都存在高度的过度依赖风险。首先,分析了LLM生成的认知标记的分布,观察到LLM在各种语言中都过度自信,即使在不正确的响应中也经常生成增强语气的词语。然而,模型生成对已记录的跨语言使用差异很敏感:例如,模型在日语中生成的不确定性标记最多,在德语和普通话中生成的确定性标记最多。接下来,测量了各种语言的人类依赖率,发现依赖行为存在跨语言差异:例如,与英语相比,参与者更有可能忽略日语中不确定性表达(即,忽略其“对冲”功能并依赖于包含它们的生成结果)。综上所述,这些结果表明,各种语言都存在过度依赖过度自信模型生成结果的高度风险。研究结果强调了多语言语言校准的挑战,并强调了文化和语言背景化的模型安全评估的重要性。

🔬 方法详解

问题定义:该论文旨在研究多语言环境下,大型语言模型(LLM)的过度自信表达对人类用户的影响。现有方法主要关注英语环境下的LLM校准问题,忽略了跨语言的差异性,以及不同文化背景下用户对LLM输出的认知偏差。这可能导致用户在不自觉的情况下过度依赖LLM的错误信息,尤其是在高风险决策场景中。

核心思路:论文的核心思路是,通过分析LLM在不同语言中的认知标记(epistemic markers)的生成和使用情况,以及测量人类用户在不同语言环境下对LLM输出的依赖程度,来评估多语言环境下的过度依赖风险。研究关注LLM的语言表达是否与其真实的不确定性相符,以及用户是否能正确理解和利用LLM表达的不确定性信息。

技术框架:该研究的技术框架主要包含两个部分:1) LLM认知标记分析:分析LLM在五种语言(英语、日语、德语、普通话)中生成的文本中,确定性和不确定性认知标记的分布情况。通过统计分析,评估LLM在不同语言中是否过度自信,以及其生成的认知标记是否符合该语言的习惯用法。2) 人类依赖率测量:设计实验,让参与者阅读LLM生成的文本,并评估他们对文本内容的信任程度。通过对比不同语言环境下参与者的依赖率,以及他们对包含不同认知标记的文本的信任度,来评估跨语言的依赖行为差异。

关键创新:该研究的关键创新在于,首次系统性地研究了多语言环境下LLM的过度自信和过度依赖问题。它不仅关注LLM本身的语言表达,还考虑了不同文化背景下用户对LLM输出的认知和理解。通过结合LLM分析和人类实验,更全面地评估了多语言环境下的LLM安全风险。

关键设计:在LLM认知标记分析方面,研究者需要定义一套适用于多种语言的认知标记体系,并设计有效的算法来自动识别和统计这些标记。在人类依赖率测量方面,需要设计合理的实验流程和问卷,以准确测量参与者对LLM输出的信任程度,并控制潜在的混淆变量。此外,还需要考虑不同语言的文化差异,例如日语中对不确定性表达的偏好,以及德语中对确定性表达的强调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,LLM在多种语言中都存在过度自信现象,即使在生成错误答案时也倾向于使用增强语气的表达。此外,人类在不同语言中对LLM输出的依赖程度存在显著差异,例如,日语使用者更容易忽略LLM中的不确定性表达。这些结果表明,多语言LLM的校准和安全评估面临严峻挑战。

🎯 应用场景

该研究成果可应用于提升多语言LLM的安全性与可靠性,尤其是在医疗、法律、金融等高风险领域。通过优化LLM的语言表达,使其更准确地传达不确定性,并提高用户对LLM输出的批判性思维,可以降低因过度依赖LLM而导致的错误决策风险。未来,可进一步研究如何根据不同文化背景定制LLM的输出风格,以更好地满足用户的需求。

📄 摘要(原文)

As large language models (LLMs) are deployed globally, it is crucial that their responses are calibrated across languages to accurately convey uncertainty and limitations. Prior work shows that LLMs are linguistically overconfident in English, leading users to overrely on confident generations. However, the usage and interpretation of epistemic markers (e.g., 'I think it's') differs sharply across languages. Here, we study the risks of multilingual linguistic (mis)calibration, overconfidence, and overreliance across five languages to evaluate LLM safety in a global context. Our work finds that overreliance risks are high across languages. We first analyze the distribution of LLM-generated epistemic markers and observe that LLMs are overconfident across languages, frequently generating strengtheners even as part of incorrect responses. Model generations are, however, sensitive to documented cross-linguistic variation in usage: for example, models generate the most markers of uncertainty in Japanese and the most markers of certainty in German and Mandarin. Next, we measure human reliance rates across languages, finding that reliance behaviors differ cross-linguistically: for example, participants are significantly more likely to discount expressions of uncertainty in Japanese than in English (i.e., ignore their 'hedging' function and rely on generations that contain them). Taken together, these results indicate a high risk of reliance on overconfident model generations across languages. Our findings highlight the challenges of multilingual linguistic calibration and stress the importance of culturally and linguistically contextualized model safety evaluations.