Can Humans Tell? A Dual-Axis Study of Human Perception of LLM-Generated News
作者: Alexander Loth, Martin Kappes, Marc-Oliver Pahl
分类: cs.CY, cs.AI, cs.CL, cs.HC
发布日期: 2026-04-07
💡 一句话要点
研究表明人类难以区分LLM生成的新闻与人工撰写的新闻,用户侧检测防御不可行。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 新闻生成 人类感知 虚假信息检测 内容溯源
📋 核心要点
- 现有方法难以有效区分LLM生成的新闻与人工撰写的新闻,这给虚假信息的传播带来了潜在风险。
- 研究设计JudgeGPT平台,通过独立衡量来源归属和真实性判断,探究人类对LLM生成新闻的感知能力。
- 实验结果表明,人类无法可靠区分LLM生成的新闻,且用户侧检测防御不可行,需系统级对策。
📝 摘要(中文)
本文研究了人类是否能够区分新闻文章是由人还是由大型语言模型(LLM)撰写的。研究使用JudgeGPT平台,该平台独立地在连续尺度上衡量来源归属(人类 vs. 机器)和真实性判断(合法 vs. 虚假)。通过从1054名参与者收集的2318个判断,这些判断基于六个LLM生成的内容,我们报告了五个发现:(1)参与者无法可靠地区分机器生成文本和人工撰写文本(p > .05,Welch's t-test);(2)这种无法区分性适用于所有测试模型,包括参数少至7B的开源模型;(3)自我报告的领域专业知识可以预测判断准确性(r = .35,p < .001),而政治倾向则不能(r = -.10,n.s.);(4)聚类分析揭示了不同的响应策略(“怀疑论者” vs. “相信者”);(5)由于认知疲劳,大约30次连续评估后,准确性会降低。简而言之,答案是否定的:人类无法可靠地区分。这些结果表明,用户侧检测不是一种可行的防御手段,并促使人们采取系统级对策,例如密码学内容溯源。
🔬 方法详解
问题定义:论文旨在解决人类是否能够区分由大型语言模型(LLM)生成的新闻文章和人类撰写的新闻文章的问题。现有方法的痛点在于,随着LLM生成文本能力的提升,传统的检测方法越来越难以有效区分真假新闻,这使得虚假信息的传播更加容易。
核心思路:论文的核心思路是通过实验的方式,直接测试人类对LLM生成新闻的辨别能力。通过构建一个研究平台JudgeGPT,收集大量人类判断数据,并分析这些数据,从而得出结论。这种方法避免了依赖复杂的算法或模型,而是直接从人类感知的角度出发,评估LLM生成文本的逼真程度。
技术框架:研究的技术框架主要包含以下几个阶段:1. 内容生成:使用六个不同的LLM生成新闻文章。2. 平台构建:构建JudgeGPT平台,用于收集人类对新闻文章的判断数据。该平台可以独立衡量来源归属(人类 vs. 机器)和真实性判断(合法 vs. 虚假)。3. 数据收集:招募参与者,让他们在JudgeGPT平台上对新闻文章进行判断。4. 数据分析:对收集到的数据进行统计分析,包括Welch's t-test、相关性分析和聚类分析等,以评估人类的辨别能力和影响因素。
关键创新:论文的关键创新在于其研究方法。它没有试图开发新的LLM检测算法,而是直接从人类感知的角度出发,评估现有LLM生成文本的逼真程度。此外,JudgeGPT平台的设计也允许研究者独立地衡量来源归属和真实性判断,从而更全面地了解人类的判断过程。
关键设计:JudgeGPT平台采用连续尺度来衡量来源归属和真实性判断,这比传统的二元判断(真/假)更精细,能够捕捉到人类判断的细微差别。实验中使用了六个不同的LLM,包括开源模型和闭源模型,这使得研究结果更具普适性。此外,研究还考虑了领域专业知识和政治倾向等因素对判断准确性的影响。
🖼️ 关键图片
📊 实验亮点
研究发现,人类无法可靠区分LLM生成的新闻与人工撰写的新闻(p > .05,Welch's t-test),即使是参数量较小的开源模型也具有很高的逼真度。领域专业知识与判断准确性呈正相关(r = .35,p < .001),而政治倾向与判断准确性无关(r = -.10,n.s.)。此外,研究还发现,长时间的连续评估会导致认知疲劳,从而降低判断准确性。
🎯 应用场景
该研究结果对新闻媒体、社交平台和信息安全领域具有重要意义。它表明,依靠用户自身来识别LLM生成的新闻是不可靠的,因此需要开发更有效的系统级防御机制,例如使用密码学技术进行内容溯源,以防止虚假信息的传播。此外,该研究也提醒人们在使用LLM生成内容时要保持警惕,避免被误导。
📄 摘要(原文)
Can humans tell whether a news article was written by a person or a large language model (LLM)? We investigate this question using JudgeGPT, a study platform that independently measures source attribution (human vs. machine) and authenticity judgment (legitimate vs. fake) on continuous scales. From 2,318 judgments collected from 1,054 participants across content generated by six LLMs, we report five findings: (1) participants cannot reliably distinguish machine-generated from human-written text (p > .05, Welch's t-test); (2) this inability holds across all tested models, including open-weight models with as few as 7B parameters; (3) self-reported domain expertise predicts judgment accuracy (r = .35, p < .001) whereas political orientation does not (r = -.10, n.s.); (4) clustering reveals distinct response strategies ("Skeptics" vs. "Believers"); and (5) accuracy degrades after approximately 30 sequential evaluations due to cognitive fatigue. The answer, in short, is no: humans cannot reliably tell. These results indicate that user-side detection is not a viable defense and motivate system-level countermeasures such as cryptographic content provenance.