Not Wrong, But Untrue: LLM Overconfidence in Document-Based Queries
作者: Nick Hagar, Wilma Agustianto, Nicholas Diakopoulos
分类: cs.CL, cs.AI
发布日期: 2025-09-29
备注: Accepted to Computation + Journalism Symposium 2025
💡 一句话要点
LLM在文档问答中过度自信:揭示新闻场景下的幻觉问题与溯源挑战
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 幻觉问题 新闻报道 信息溯源 观点归属
📋 核心要点
- 现有LLM在新闻场景下易产生幻觉,缺乏对信息来源的有效追溯,影响新闻报道的准确性和可信度。
- 该研究通过分析LLM在文档问答中的表现,揭示了其在解释和归纳信息时存在的过度自信问题。
- 实验表明,不同LLM的幻觉率存在显著差异,并提出了针对新闻场景的幻觉分类扩展。
📝 摘要(中文)
大型语言模型(LLM)越来越多地应用于新闻编辑室的工作流程中,但其产生幻觉的倾向对新闻报道的核心实践,如溯源、归属和准确性构成了风险。本文评估了三种广泛使用的工具——ChatGPT、Gemini和NotebookLM,在一个基于300篇关于美国TikTok诉讼和政策的文档语料库的报告任务中。通过改变提示的特异性和上下文大小,并使用分类法注释句子级别的输出,以测量幻觉的类型和严重程度。在我们的样本中,30%的模型输出包含至少一个幻觉,Gemini和ChatGPT的比例(40%)约为NotebookLM(13%)的三倍。从定性角度来看,大多数错误不涉及虚构的实体或数字;相反,我们观察到解释性过度自信——模型添加了对来源的无根据描述,并将归属的观点转化为一般性陈述。这些模式揭示了一种根本性的认识论不匹配:虽然新闻报道要求对每一项声明进行明确的溯源,但LLM会生成听起来权威的文本,而不管是否有证据支持。我们提出了针对新闻报道的现有幻觉分类法的扩展,并认为有效的新闻编辑室工具需要强制执行准确归属的架构,而不是优化流畅性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在处理基于文档的新闻报道任务时,容易产生幻觉,尤其是在信息溯源和观点归属方面表现出的不足。现有方法未能有效保证LLM输出内容的真实性和可信度,导致新闻报道可能出现错误或误导性信息。
核心思路:论文的核心思路是揭示LLM在新闻场景下的“解释性过度自信”现象,即模型在缺乏充分证据支持的情况下,对信息进行主观解读和概括,并将个人观点转化为普遍陈述。通过分析LLM的错误类型,强调了新闻报道中明确溯源的重要性,并提出改进LLM架构以强制执行准确归属的必要性。
技术框架:该研究采用实验评估方法,构建了一个包含300篇关于TikTok诉讼和政策的文档语料库,作为LLM的知识来源。研究人员使用不同的提示策略(改变特异性和上下文大小)来测试三种流行的LLM(ChatGPT、Gemini和NotebookLM)。然后,他们对LLM生成的句子级输出进行人工标注,使用一种专门设计的幻觉分类法来测量幻觉的类型和严重程度。
关键创新:论文的关键创新在于:1) 识别出LLM在新闻场景下常见的“解释性过度自信”错误类型,这与传统的幻觉(如虚构实体或数字)不同;2) 提出了针对新闻报道的幻觉分类法扩展,更细致地描述了LLM在溯源和归属方面的错误;3) 强调了LLM架构设计中强制执行准确归属的重要性,这与当前侧重于流畅性的优化方向不同。
关键设计:研究的关键设计包括:1) 构建了与真实新闻报道场景相关的文档语料库;2) 设计了不同特异性和上下文大小的提示,以模拟不同的用户查询方式;3) 开发了详细的幻觉分类法,用于系统地分析LLM的输出错误;4) 对比了三种不同的LLM,以评估其在新闻报道任务中的表现差异。
🖼️ 关键图片
📊 实验亮点
实验结果表明,30%的LLM输出包含至少一个幻觉,其中Gemini和ChatGPT的幻觉率(40%)远高于NotebookLM(13%)。研究发现,LLM的主要错误类型是“解释性过度自信”,即模型添加了对来源的无根据描述,并将归属的观点转化为一般性陈述。这些结果突显了LLM在新闻报道中存在的潜在风险。
🎯 应用场景
该研究成果可应用于改进新闻编辑室的LLM辅助工具,提高新闻报道的准确性和可信度。通过强制执行准确归属,可以减少LLM产生的幻觉,避免错误信息的传播。此外,该研究提出的幻觉分类法扩展可以帮助新闻从业者更好地识别和纠正LLM的错误。
📄 摘要(原文)
Large language models (LLMs) are increasingly used in newsroom workflows, but their tendency to hallucinate poses risks to core journalistic practices of sourcing, attribution, and accuracy. We evaluate three widely used tools - ChatGPT, Gemini, and NotebookLM - on a reporting-style task grounded in a 300-document corpus related to TikTok litigation and policy in the U.S. We vary prompt specificity and context size and annotate sentence-level outputs using a taxonomy to measure hallucination type and severity. Across our sample, 30% of model outputs contained at least one hallucination, with rates approximately three times higher for Gemini and ChatGPT (40%) than for NotebookLM (13%). Qualitatively, most errors did not involve invented entities or numbers; instead, we observed interpretive overconfidence - models added unsupported characterizations of sources and transformed attributed opinions into general statements. These patterns reveal a fundamental epistemological mismatch: While journalism requires explicit sourcing for every claim, LLMs generate authoritative-sounding text regardless of evidentiary support. We propose journalism-specific extensions to existing hallucination taxonomies and argue that effective newsroom tools need architectures that enforce accurate attribution rather than optimize for fluency.