Fakes of Varying Shades: How Warning Affects Human Perception and Engagement Regarding LLM Hallucinations

📄 arXiv: 2404.03745v3 📥 PDF

作者: Mahjabin Nahar, Haeseung Seo, Eun-Ju Lee, Aiping Xiong, Dongwon Lee

分类: cs.HC, cs.AI, cs.CL

发布日期: 2024-04-04 (更新: 2024-08-12)

备注: Accepted at COLM 2024

🔗 代码/项目: GITHUB


💡 一句话要点

研究人类对LLM幻觉的感知及警告影响

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 幻觉检测 人类感知 用户参与 信息识别

📋 核心要点

  1. 当前大型语言模型生成的幻觉内容难以被用户准确识别,导致潜在的误导和风险。
  2. 本研究通过系统变化幻觉程度和警告的存在与否,探讨人类对幻觉的感知及其影响。
  3. 实验结果表明,警告显著提高了幻觉的检测能力,同时未影响真实内容的感知真实性。

📝 摘要(中文)

随着大型语言模型(LLMs)的广泛应用,其产生的不准确和虚构内容(称为“幻觉”)引发了人们的关注。本文旨在通过系统地变化幻觉的程度(真实、轻微幻觉、重大幻觉)并考察警告的影响(即潜在不准确性的警告:缺失与存在),来理解人类对LLM幻觉的感知。参与者(N=419)在问答格式中对内容的准确性进行了评分,并参与了内容的互动(如点赞、点踩、分享)。结果显示,参与者对内容的真实度评估依次为真实、轻微幻觉和重大幻觉,用户参与行为也反映了这一模式。更重要的是,警告提高了幻觉的检测能力,而未显著影响真实内容的感知真实性。最后,本文为未来帮助人类检测幻觉的工具提供了见解。

🔬 方法详解

问题定义:本文解决的问题是人类如何识别大型语言模型生成的幻觉内容,现有方法在幻觉识别上存在不足,用户往往无法准确判断内容的真实性。

核心思路:研究通过改变幻觉的程度和提供警告,探讨其对人类感知的影响,旨在提高用户对幻觉的识别能力。

技术框架:研究采用问答格式的调查,参与者对不同幻觉程度的内容进行评分和互动,整体流程包括内容生成、参与者评分和数据分析三个主要阶段。

关键创新:本研究的创新点在于系统性地考察幻觉程度与警告的交互作用,揭示了警告对幻觉检测的积极影响,这是以往研究未深入探讨的。

关键设计:在实验中,参与者被随机分配到不同的幻觉程度和警告条件下,使用的评分标准包括内容的真实度和用户参与行为,确保了实验的科学性和有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,参与者在有警告的情况下,幻觉的检测能力显著提高,且对真实内容的感知真实性未受影响。这表明警告在提升用户识别幻觉内容的能力方面具有重要作用。

🎯 应用场景

该研究的潜在应用领域包括教育、社交媒体和内容审核等,能够帮助用户更好地识别和应对大型语言模型生成的虚假信息。未来,基于研究结果的工具可以被开发出来,以增强用户在信息消费过程中的判断力和安全性。

📄 摘要(原文)

The widespread adoption and transformative effects of large language models (LLMs) have sparked concerns regarding their capacity to produce inaccurate and fictitious content, referred to as `hallucinations'. Given the potential risks associated with hallucinations, humans should be able to identify them. This research aims to understand the human perception of LLM hallucinations by systematically varying the degree of hallucination (genuine, minor hallucination, major hallucination) and examining its interaction with warning (i.e., a warning of potential inaccuracies: absent vs. present). Participants (N=419) from Prolific rated the perceived accuracy and engaged with content (e.g., like, dislike, share) in a Q/A format. Participants ranked content as truthful in the order of genuine, minor hallucination, and major hallucination, and user engagement behaviors mirrored this pattern. More importantly, we observed that warning improved the detection of hallucination without significantly affecting the perceived truthfulness of genuine content. We conclude by offering insights for future tools to aid human detection of hallucinations. All survey materials, demographic questions, and post-session questions are available at: https://github.com/MahjabinNahar/fakes-of-varying-shades-survey-materials