Preprint: Poster: Did I Just Browse A Website Written by LLMs?
作者: Sichang Steven He, Ramesh Govindan, Harsha V. Madhyastha
分类: cs.NI, cs.AI, cs.CL, cs.IR
发布日期: 2025-07-18 (更新: 2025-10-09)
备注: ACM Internet Measurement Conference 2025 Poster & ACM IMC 2025 Student Workshop. 2 pages. 3 figures
💡 一句话要点
提出一种高可靠性网站分类pipeline,用于检测LLM主导生成的内容
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LLM检测 网站分类 内容生成 自然语言处理 网络安全
📋 核心要点
- 现有LLM检测器在网络内容上表现不佳,因为网络内容复杂,阳性率低,且类型多样。
- 提出一种可扩展的pipeline,通过分析多个页面的LLM检测结果来分类整个网站,提升检测准确率。
- 在120个网站的数据集上实现了100%的准确率,并在实际网络环境中检测到大量LLM主导的网站。
📝 摘要(中文)
越来越多的网络内容由大型语言模型(LLM)自动生成,几乎没有人为干预,我们称之为“LLM主导”内容。由于LLM存在抄袭和幻觉问题,LLM主导的内容可能不可靠且不道德。然而,网站很少披露此类内容,读者也很难区分。因此,我们必须开发可靠的LLM主导内容检测器。然而,最先进的LLM检测器在网络内容上的准确性较低,因为网络内容具有低阳性率、复杂的标记和多样化的类型,而不是SoTA检测器优化的干净的、类似散文的基准数据。我们提出了一种高度可靠、可扩展的pipeline,用于对整个网站进行分类。我们没有简单地对从每个页面提取的文本进行分类,而是基于LLM文本检测器对多个类似散文页面的输出对每个站点进行分类,以提高准确性。我们通过收集总共120个站点的2个不同的ground truth数据集来训练和评估我们的检测器,并在跨数据集测试中获得100%的准确率。在实际应用中,我们在搜索引擎结果中的1万个站点和Common Crawl档案中的1万个站点中检测到相当一部分站点是LLM主导的。我们发现LLM主导的站点越来越普遍,并且在搜索结果中排名很高,这引发了关于它们对最终用户和整个Web生态系统的影响的问题。
🔬 方法详解
问题定义:论文旨在解决如何准确检测由大型语言模型(LLM)主导生成的网站内容的问题。现有LLM检测器在处理真实网络内容时表现不佳,因为网络内容通常包含复杂的标记、多样化的主题以及较低的LLM生成内容比例,这与现有检测器所针对的干净、结构化的文本数据有很大差异。现有方法难以有效区分人工撰写和LLM生成的内容,导致误判率高。
核心思路:论文的核心思路是通过分析整个网站的多个页面,而不是单个页面,来提高LLM内容检测的准确性。作者认为,即使单个页面可能难以判断,但通过聚合多个页面的检测结果,可以更可靠地判断整个网站是否主要由LLM生成。这种方法利用了网站内容的一致性,并减少了单个页面误判的影响。
技术框架:该pipeline包含以下主要阶段:1) 从网站提取多个“类似散文”的页面;2) 使用现有的LLM文本检测器对每个提取的页面进行分类,输出每个页面是LLM生成的概率;3) 聚合所有页面的检测结果,例如计算平均概率或使用更复杂的统计方法;4) 基于聚合结果,将整个网站分类为“LLM主导”或“非LLM主导”。
关键创新:该方法的主要创新在于其整体性的网站分析方法。与以往专注于单个文档或页面的检测方法不同,该方法将整个网站作为一个整体进行评估,从而提高了检测的鲁棒性和准确性。此外,该方法强调选择“类似散文”的页面,以提高LLM检测器的性能,避免处理包含大量代码、表格或其他非文本内容的页面。
关键设计:论文的关键设计包括:1) 如何选择“类似散文”的页面,可能涉及使用启发式规则或机器学习模型来识别包含大量文本且结构相对简单的页面;2) 如何聚合多个页面的检测结果,例如使用加权平均或更复杂的模型来考虑不同页面的重要性;3) 如何设置分类阈值,以确定网站是否被认为是“LLM主导”。这些参数的选择和优化对于pipeline的整体性能至关重要。
🖼️ 关键图片
📊 实验亮点
该研究在两个不同的ground truth数据集上进行了评估,总共包含120个网站,实现了100%的准确率。此外,在对1万个搜索引擎结果和1万个Common Crawl档案的分析中,检测到相当一部分网站是LLM主导的,表明LLM生成内容在网络上的普及程度正在迅速增长。
🎯 应用场景
该研究成果可应用于搜索引擎优化、内容审核、信息安全等领域。通过检测LLM主导的网站,可以帮助用户识别潜在的虚假信息或低质量内容,提高网络信息的可信度。此外,该技术还可以用于评估LLM生成内容对网络生态系统的影响,并为制定相关政策提供参考。
📄 摘要(原文)
Increasingly, web content is automatically generated by large language models (LLMs) with little human input. We call this "LLM-dominant" content. Since LLMs plagiarize and hallucinate, LLM-dominant content can be unreliable and unethical. Yet, websites rarely disclose such content, and human readers struggle to distinguish it. Thus, we must develop reliable detectors for LLM-dominant content. However, state-of-the-art LLM detectors are inaccurate on web content, because web content has low positive rates, complex markup, and diverse genres, instead of clean, prose-like benchmark data SoTA detectors are optimized for. We propose a highly reliable, scalable pipeline that classifies entire websites. Instead of naively classifying text extracted from each page, we classify each site based on an LLM text detector's outputs of multiple prose-like pages to boost accuracies. We train and evaluate our detector by collecting 2 distinct ground truth datasets totaling 120 sites, and obtain 100% accuracies testing across them. In the wild, we detect a sizable portion of sites as LLM-dominant among 10k sites in search engine results and 10k in Common Crawl archives. We find LLM-dominant sites are growing in prevalence and rank highly in search results, raising questions about their impact on end users and the overall Web ecosystem.