One vs. Many: Comprehending Accurate Information from Multiple Erroneous and Inconsistent AI Generations

📄 arXiv: 2405.05581v1 📥 PDF

作者: Yoonjoo Lee, Kihoon Son, Tae Soo Kim, Jisu Kim, John Joon Young Chung, Eytan Adar, Juho Kim

分类: cs.HC, cs.AI, cs.CL

发布日期: 2024-05-09

备注: Accepted to FAccT 2024

DOI: 10.1145/3630106.3662681


💡 一句话要点

研究多LLM输出一致性对用户认知的影响,提升信息理解与批判性使用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 用户认知 信息理解 一致性 人机交互 批判性思维 AI能力感知

📋 核心要点

  1. 现有LLM系统通常依赖单一输出,用户无法判断其正确性,限制了信息获取的可靠性。
  2. 该研究探索了向用户展示多个LLM输出(可能不一致)如何影响他们对AI的认知和信息理解。
  3. 实验表明,LLM输出的不一致性降低了用户对AI能力的过高期望,并促进了更深入的信息理解。

📝 摘要(中文)

大型语言模型(LLM)具有非确定性,相同输入可能产生不同的输出,其中一些可能不正确或产生幻觉。重复运行LLM可能纠正自身并产生正确答案。然而,大多数基于LLM的系统依赖于单一结果,用户只能接受,无论其正确与否。让LLM生成多个输出可能有助于识别分歧或替代方案。但是,用户如何解释冲突或不一致之处并不明显。为此,我们研究了当用户收到多个可能不一致的输出时,他们如何看待AI模型并理解生成的信息。通过初步研究,我们确定了五种类型的输出不一致。基于这些类别,我们进行了一项研究(N=252),参与者被提供一个或多个LLM生成的段落,以回答信息检索问题。我们发现,多个LLM生成输出中的不一致性降低了参与者对AI能力的感知,同时也提高了他们对给定信息的理解。具体而言,我们观察到,与阅读三个段落的参与者相比,这种不一致性的积极影响对于阅读两个段落的参与者最为显着。基于这些发现,我们提出了设计启示,即不应将LLM输出不一致视为缺点,而是可以揭示潜在的不一致性,以透明地表明这些模型的局限性,并促进批判性的LLM使用。

🔬 方法详解

问题定义:该论文旨在解决用户在使用大型语言模型(LLM)时,如何有效理解和利用LLM生成的多样化但可能不一致的信息的问题。现有方法通常只提供单一的LLM输出,这可能导致用户盲目信任或忽略潜在的错误信息,阻碍了用户对LLM局限性的认知。

核心思路:核心思路是向用户呈现多个由LLM生成的、针对同一问题的不同答案,并研究这些答案之间的一致性/不一致性如何影响用户对AI能力的感知以及对信息的理解程度。通过暴露LLM的不确定性和潜在错误,旨在促进用户对LLM的批判性使用。

技术框架:该研究首先通过初步实验识别了五种类型的LLM输出不一致性。然后,设计了一个用户研究,其中参与者被要求阅读一个或多个由LLM生成的段落,这些段落旨在回答一个信息检索问题。研究人员测量了参与者对AI能力的感知以及他们对给定信息的理解程度。通过分析参与者的反应,研究人员评估了LLM输出不一致性对用户认知的影响。

关键创新:该研究的关键创新在于它将LLM输出的不一致性从一个需要避免的问题转化为一个可以利用的特性。通过向用户展示LLM的不同输出,研究人员旨在提高用户对LLM局限性的认识,并鼓励他们更批判性地评估LLM生成的信息。

关键设计:研究的关键设计包括:1) 定义了五种LLM输出不一致的类型;2) 设计了用户研究,其中参与者被随机分配到不同的条件,每个条件对应不同数量的LLM生成段落;3) 使用问卷调查来测量参与者对AI能力的感知以及他们对给定信息的理解程度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当用户阅读多个LLM生成的输出时,输出的不一致性会降低用户对AI能力的过高期望,同时提高他们对信息的理解程度。具体而言,阅读两个LLM输出的参与者比阅读三个输出的参与者表现出更显著的理解提升。

🎯 应用场景

该研究成果可应用于改进人机交互界面设计,尤其是在信息检索、教育和决策支持等领域。通过展示LLM生成结果的多样性和不确定性,可以帮助用户更全面地理解信息,避免盲目信任AI,并促进更负责任的AI使用。

📄 摘要(原文)

As Large Language Models (LLMs) are nondeterministic, the same input can generate different outputs, some of which may be incorrect or hallucinated. If run again, the LLM may correct itself and produce the correct answer. Unfortunately, most LLM-powered systems resort to single results which, correct or not, users accept. Having the LLM produce multiple outputs may help identify disagreements or alternatives. However, it is not obvious how the user will interpret conflicts or inconsistencies. To this end, we investigate how users perceive the AI model and comprehend the generated information when they receive multiple, potentially inconsistent, outputs. Through a preliminary study, we identified five types of output inconsistencies. Based on these categories, we conducted a study (N=252) in which participants were given one or more LLM-generated passages to an information-seeking question. We found that inconsistency within multiple LLM-generated outputs lowered the participants' perceived AI capacity, while also increasing their comprehension of the given information. Specifically, we observed that this positive effect of inconsistencies was most significant for participants who read two passages, compared to those who read three. Based on these findings, we present design implications that, instead of regarding LLM output inconsistencies as a drawback, we can reveal the potential inconsistencies to transparently indicate the limitations of these models and promote critical LLM usage.