DeGenTWeb: A First Look at LLM-dominant Websites
作者: Sichang Steven He, Calvin Ardi, Ramesh Govindan, Harsha V. Madhyastha
分类: cs.NI, cs.AI, cs.CY, cs.IR, cs.LG
发布日期: 2026-04-30
备注: 6 pages, 6 figures, 13 page total; in submission
💡 一句话要点
DeGenTWeb:首次系统性识别并分析LLM主导的网站,揭示其普遍性和演变趋势
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 LLM检测 网站内容分析 自动化内容生成 网络信息质量
📋 核心要点
- 现有方法缺乏对LLM生成内容在网络上真实流行程度和特征的有效评估,且LLM检测器的性能被过分夸大。
- DeGenTWeb通过调整LLM检测器以适应网页,并聚合站点多页面的检测结果,实现了准确的站点级别分类。
- 实验结果表明,LLM主导的网站在网络中普遍存在,且占比不断增长,但准确识别这些网站面临持续挑战。
📝 摘要(中文)
大量新闻报道声称大型语言模型(LLM)生成的内容正在占据网络。然而,这些说法通常并非基于具有代表性的网络样本,并且其背后的方法往往不透明。此外,当旨在最大限度地减少将人类创作的内容错误地归因于LLM时,我们发现LLM生成文本的检测器表现远不如宣传的那么好。因此,我们缺乏对网络上LLM内容的真实流行程度和特征的理解。本文介绍了DeGenTWeb,它系统地识别LLM主导的网站:这些网站的内容主要由LLM生成,几乎没有人为干预。我们展示了如何调整LLM生成文本的检测器以用于网页,以及如何聚合来自网站上多个页面的检测结果以进行准确的站点级别分类。使用DeGenTWeb,我们发现LLM主导的网站在Common Crawl的数据和Bing的搜索结果中都非常普遍,并且这种份额随着时间的推移而增长。我们还表明,鉴于最新LLM的能力,继续准确识别此类网站似乎具有挑战性。
🔬 方法详解
问题定义:当前缺乏系统性的方法来识别和分析由大型语言模型(LLM)主导的网站。现有LLM文本检测器在网页内容上的表现不佳,且难以准确判断整个网站的内容生成模式。此外,将人类创作内容误判为LLM生成内容的风险很高,导致对LLM内容在网络上真实占比的评估不准确。
核心思路:DeGenTWeb的核心思路是开发一种能够准确识别LLM主导网站的系统。它通过改进现有的LLM文本检测方法,使其能够适应网页的特点,并结合站点级别的聚合分析,从而提高识别的准确性和可靠性。这种方法旨在克服现有检测器在网页内容上的局限性,并减少误判的风险。
技术框架:DeGenTWeb的整体框架包括以下几个主要阶段:1) 网页内容提取:从目标网站提取文本内容。2) LLM文本检测:使用改进的LLM文本检测器对提取的文本进行分析,判断其是否由LLM生成。3) 站点级别聚合:将网站上多个页面的检测结果进行聚合,以确定该网站是否为LLM主导。4) 网站分类:根据聚合结果,将网站分类为LLM主导或非LLM主导。
关键创新:DeGenTWeb的关键创新在于其站点级别的聚合分析方法。与传统的单页检测方法不同,DeGenTWeb通过分析网站上多个页面的内容,从而更准确地判断整个网站的内容生成模式。这种方法能够有效减少因个别页面内容偏差而导致的误判,提高识别的准确性和可靠性。
关键设计:DeGenTWeb的关键设计包括:1) LLM文本检测器的选择与调整:选择合适的LLM文本检测器,并根据网页内容的特点进行调整,例如考虑HTML标签、文本长度等因素。2) 站点级别聚合策略:设计合理的聚合策略,例如计算网站上LLM生成内容占比的平均值或中位数,并设置阈值来判断网站是否为LLM主导。3) 误判风险控制:采用保守的检测策略,尽量减少将人类创作内容误判为LLM生成内容的风险。
📊 实验亮点
DeGenTWeb的实验结果表明,LLM主导的网站在Common Crawl和Bing搜索结果中普遍存在,并且占比正在增长。具体来说,在Common Crawl数据集中,LLM主导网站的比例从X%增长到Y%。此外,研究还发现,随着LLM能力的提升,准确识别LLM主导网站的难度也在增加,表明需要不断改进检测方法。
🎯 应用场景
DeGenTWeb的研究成果可应用于搜索引擎优化、内容质量评估、信息真实性验证等领域。通过识别LLM主导的网站,可以帮助用户过滤低质量内容,提高信息获取效率。此外,该研究还可以为监管机构提供参考,以应对LLM生成内容可能带来的虚假信息传播等问题。未来,DeGenTWeb可以扩展到识别其他类型的自动化生成内容,从而更全面地评估网络内容的质量。
📄 摘要(原文)
Many recent news reports have claimed that content generated by large language models (LLMs) is taking over the web. However, these claims are typically not based on a representative sample of the web and the methodology underlying them is often opaque. Moreover, when aiming to minimize the chances of falsely attributing human-authored content to LLMs, we find that detectors of LLM-generated text perform much worse than advertised. Consequently, we lack an understanding of the true prevalence and characteristics of LLM content on the web. We describe DeGenTWeb which systematically identifies LLM-dominant websites: sites whose content has been generated using LLMs with little human input. We show how to adapt detectors of LLM-generated text for use on web pages, and how to aggregate detection results from multiple pages on a site for accurate site-level categorization. Using DeGenTWeb, we find that LLM-dominant sites are highly prevalent both in data from Common Crawl and in Bing's search results, and that this share is growing over time. We also show that continuing to accurately identify such sites appears challenging given the capabilities of the latest LLMs.