Misinformation Exposure in the Chinese Web: A Cross-System Evaluation of Search Engines, LLMs, and AI Overviews

📄 arXiv: 2602.22221 📥 PDF

作者: Geng Liu, Junjie Mu, Li Feng, Mengxiao Zhu, Francesco Pierri

分类: cs.IR, cs.AI, cs.CL, cs.CY

发布日期: 2026-02-28


💡 一句话要点

针对中文网络,评估搜索引擎、LLM和AI概览中的错误信息暴露风险

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 中文信息检索 大型语言模型 事实核查 错误信息 风险评估

📋 核心要点

  1. 现有方法缺乏对非英语网络生态系统中LLM事实可靠性的深入评估,尤其是在处理真实用户查询时。
  2. 论文提出构建一个中文是非题事实验证数据集,并设计统一的评估流程,对比不同信息访问模式的准确性。
  3. 实验结果表明,不同系统在事实准确性上存在显著差异,并估算了用户暴露于错误信息的潜在风险。

📝 摘要(中文)

大型语言模型(LLM)正日益融入搜索服务,通过提供直接答案来减少用户对传统结果页面的依赖。然而,它们在非英语网络生态系统中的事实可靠性,尤其是在回答真实用户查询时,仍然知之甚少。本文构建了一个包含12161个中文是非题的事实验证数据集,这些问题源自真实世界的在线搜索日志。我们开发了一个统一的评估流程,以比较三种信息访问模式:传统搜索引擎、独立LLM和AI生成的概览模块。分析揭示了不同系统在事实准确性和主题层面上的显著差异。通过将这些性能与真实世界的百度指数统计数据相结合,我们进一步估算了中国用户在不同地区暴露于不正确事实信息的潜在风险。这些发现突出了AI介导搜索中的结构性风险,并强调了对更可靠和透明的信息访问工具的需求。

🔬 方法详解

问题定义:论文旨在解决中文网络环境下,用户通过搜索引擎、大型语言模型(LLM)和AI概览等不同信息访问方式获取信息时,暴露于错误信息的问题。现有方法缺乏对这些系统的事实准确性进行全面评估,尤其是在非英语语境下,对真实用户查询的响应质量缺乏深入研究。

核心思路:论文的核心思路是构建一个高质量的中文事实验证数据集,并设计一个统一的评估流程,以系统地比较不同信息访问方式的事实准确性。通过结合真实世界的用户搜索行为数据(百度指数),估算用户暴露于错误信息的潜在风险。

技术框架:论文的技术框架主要包含以下几个阶段:1) 数据集构建:从真实世界的在线搜索日志中提取中文是非题,构建事实验证数据集。2) 系统评估:针对传统搜索引擎、独立LLM和AI概览模块,使用统一的评估流程进行事实准确性评估。3) 风险评估:结合系统的事实准确性表现和百度指数数据,估算用户暴露于错误信息的潜在风险。

关键创新:论文的关键创新在于:1) 构建了一个大规模的中文事实验证数据集,专门用于评估信息访问系统的事实准确性。2) 提出了一个统一的评估流程,可以公平地比较不同类型的信息访问系统(搜索引擎、LLM、AI概览)。3) 结合真实世界的用户搜索行为数据,对用户暴露于错误信息的潜在风险进行了量化评估。

关键设计:数据集包含12161个中文是非题,来源于真实用户搜索日志。评估流程采用精确匹配方法,将系统输出的答案与人工标注的正确答案进行比较。风险评估基于系统的事实准确率和百度指数,计算用户在不同地区和主题下暴露于错误信息的概率。具体参数设置和损失函数等技术细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,不同信息访问系统在事实准确性上存在显著差异。例如,某些系统在特定主题上表现出较高的错误率。通过结合百度指数数据,研究估算了中国用户在不同地区和主题下暴露于错误信息的潜在风险,揭示了AI介导搜索中的结构性风险。具体性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于提升中文搜索引擎、大型语言模型和AI概览等信息访问系统的可靠性和准确性,降低用户接触错误信息的风险。研究结果有助于指导信息检索系统的设计和优化,为用户提供更值得信赖的信息服务。此外,该研究也为评估其他非英语语境下的信息访问系统提供了借鉴。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly integrated into search services, providing direct answers that can reduce users' reliance on traditional result pages. Yet their factual reliability in non-English web ecosystems remains poorly understood, particularly when answering real user queries. We introduce a fact-checking dataset of 12~161 Chinese Yes/No questions derived from real-world online search logs and develop a unified evaluation pipeline to compare three information-access paradigms: traditional search engines, standalone LLMs, and AI-generated overview modules. Our analysis reveals substantial differences in factual accuracy and topic-level variability across systems. By combining this performance with real-world Baidu Index statistics, we further estimate potential exposure to incorrect factual information of Chinese users across regions. These findings highlight structural risks in AI-mediated search and underscore the need for more reliable and transparent information-access tools for the digital world.