Beyond Surface Judgments: Human-Grounded Risk Evaluation of LLM-Generated Disinformation
作者: Zonghuan Xu, Xiang Zheng, Yutao Wu, Xingjun Ma
分类: cs.AI
发布日期: 2026-04-08
💡 一句话要点
揭示LLM评估与人类认知偏差:LLM评估失实于LLM生成虚假信息的风险评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 虚假信息检测 风险评估 人类评估 代理有效性 LLM评估器 认知偏差
📋 核心要点
- 现有LLM评估方法缺乏对人类读者真实反应的考量,无法准确评估LLM生成虚假信息的风险。
- 该研究将评估问题重新定义为代理有效性问题,通过对比LLM评估器与人类读者的反应来审计LLM评估器的有效性。
- 实验表明,LLM评估器与人类读者在评分、排序和信号依赖性方面存在显著差异,内部一致性不能代表其作为人类反应代理的有效性。
📝 摘要(中文)
大型语言模型(LLM)能够大规模生成具有说服力的叙述,引发了人们对其在虚假信息活动中潜在用途的担忧。评估这种风险最终需要理解读者如何接收这些内容。然而,在实践中,LLM评估器越来越多地被用作直接人工评估的低成本替代品,尽管它们是否能忠实地跟踪读者反应仍不清楚。我们将此设置中的评估重新定义为一个代理有效性问题,并针对人类读者的反应来审核LLM评估器。使用290篇对齐的文章、2,043个配对的人工评分以及来自八个前沿评估器的输出,我们从总体评分、项目级别排序和信号依赖性方面检查了评估器与人类的一致性。我们发现始终存在评估器与人类之间的差距。相对于人类,评估器通常更为严厉,只能微弱地恢复项目级别的人工排名,并且依赖于不同的文本信号,更加重视逻辑严谨性,同时更强烈地惩罚情感强度。与此同时,评估器彼此之间的意见远比与人类读者之间的意见更一致。这些结果表明,LLM评估器形成了一个连贯的评估群体,该群体内部的一致性远高于与人类读者的一致性,这表明内部一致性并不能作为读者反应的有效代理。
🔬 方法详解
问题定义:论文旨在解决LLM评估器在评估LLM生成虚假信息风险时,无法准确反映人类读者真实反应的问题。现有方法通常依赖LLM评估器作为人类评估的低成本替代品,但缺乏对LLM评估器有效性的验证,导致评估结果可能与实际情况存在偏差。
核心思路:论文的核心思路是将LLM评估的有效性问题转化为一个代理有效性问题,即LLM评估器是否能有效地代理人类读者的反应。通过对比LLM评估器和人类读者对同一内容的评估结果,来分析LLM评估器在多大程度上能够反映人类的判断标准和认知模式。
技术框架:论文的技术框架主要包括以下几个步骤:1) 构建包含290篇对齐文章的数据集,这些文章用于评估LLM生成虚假信息的风险;2) 收集2043个配对的人工评分,作为人类读者反应的基准;3) 使用8个前沿LLM评估器对相同文章进行评估,获取LLM评估器的输出;4) 从总体评分、项目级别排序和信号依赖性三个方面,对比分析LLM评估器和人类读者的评估结果,评估LLM评估器的代理有效性。
关键创新:论文的关键创新在于:1) 将LLM评估的有效性问题重新定义为代理有效性问题,提供了一个新的评估LLM评估器有效性的视角;2) 通过大规模的人工评估和LLM评估对比实验,揭示了LLM评估器与人类读者在评估标准和认知模式上的显著差异;3) 强调了内部一致性不能作为LLM评估器有效性的充分证据,为LLM评估方法的设计和选择提供了重要的参考。
关键设计:论文的关键设计包括:1) 选择具有代表性的LLM评估器,包括不同架构和训练方式的LLM;2) 使用多种评估指标,包括总体评分、项目级别排序和信号依赖性,全面评估LLM评估器的代理有效性;3) 采用统计分析方法,量化LLM评估器与人类读者之间的差异,并分析差异的原因。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM评估器通常比人类读者更严厉,且在项目级别排序上与人类的关联性较弱。LLM评估器更注重逻辑严谨性,而对情感强度更为敏感。此外,LLM评估器之间的一致性远高于与人类读者的一致性,表明内部一致性不能作为评估有效性的指标。
🎯 应用场景
该研究成果可应用于改进LLM生成内容风险评估,例如在社交媒体平台、新闻媒体等场景中,更准确地识别和过滤虚假信息。同时,该研究也为开发更符合人类认知模式的LLM评估器提供了指导,有助于提升AI系统的安全性和可靠性。
📄 摘要(原文)
Large language models (LLMs) can generate persuasive narratives at scale, raising concerns about their potential use in disinformation campaigns. Assessing this risk ultimately requires understanding how readers receive such content. In practice, however, LLM judges are increasingly used as a low-cost substitute for direct human evaluation, even though whether they faithfully track reader responses remains unclear. We recast evaluation in this setting as a proxy-validity problem and audit LLM judges against human reader responses. Using 290 aligned articles, 2,043 paired human ratings, and outputs from eight frontier judges, we examine judge--human alignment in terms of overall scoring, item-level ordering, and signal dependence. We find persistent judge--human gaps throughout. Relative to humans, judges are typically harsher, recover item-level human rankings only weakly, and rely on different textual signals, placing more weight on logical rigour while penalizing emotional intensity more strongly. At the same time, judges agree far more with one another than with human readers. These results suggest that LLM judges form a coherent evaluative group that is much more aligned internally than it is with human readers, indicating that internal agreement is not evidence of validity as a proxy for reader response.