Identifying AI Web Scrapers Using Canary Tokens

📄 arXiv: 2605.13706v1 📥 PDF

作者: Steven Seiden, Triss Ren, Caroline Zhang, Taein Kim, Enze Liu, Emily Wenger

分类: cs.CR, cs.AI, cs.CY, cs.NI

发布日期: 2026-05-13


💡 一句话要点

提出基于Canary Token的AI网络爬虫识别方法,解决LLM训练数据来源追踪难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 网络爬虫识别 Canary Token 大型语言模型 数据来源追踪 恶意爬取控制

📋 核心要点

  1. 现有LLM爬虫识别方法依赖于自愿披露、个别实验或众包,存在可靠性和可扩展性问题,难以有效控制恶意爬取。
  2. 该论文提出一种基于Canary Token的自动识别方法,通过在动态网站上为每个爬虫分配唯一Token,并检测LLM的输出中是否包含这些Token来推断爬虫来源。
  3. 实验结果表明,该方法能够可靠地识别哪些爬虫为哪些LLM提供数据,包括一些未公开的爬虫,为控制恶意爬取提供了新途径。

📝 摘要(中文)

为了提升大型语言模型(LLM)的质量和上下文相关性,网络爬取的数据至关重要。然而,大规模的网络爬取可能影响网站稳定性,并引发法律、隐私或伦理问题。如果网站所有者希望限制LLM相关的网络爬取,他们可能会采用爬虫访问控制机制,如Robots Exclusion Protocol。为了使这些机制有效,网站所有者需要首先识别他们希望限制的爬虫。现有的识别方法依赖于公司自愿披露、研究人员的个别实验或众包报告,这些方法既不可靠也不可扩展。本文提出了一种新颖的技术,用于准确、自动地推断LLM相关的爬虫。我们托管动态网站,为每个访问的爬虫提供唯一的Canary Token,然后提示LLM提供关于我们网站的信息。如果LLM持续生成包含特定爬虫唯一Token的输出,则表明该LLM暴露于该爬虫。通过对22个生产LLM系统的实验,我们证明了该方法可以可靠地识别哪些爬虫为哪些LLM提供数据,包括一些未公开或未被公司披露的爬虫。该方法为无特权的第三方提供了一种有希望的途径,可以推断哪些爬虫为哪些LLM提供数据,从而可能更好地控制不需要的爬取。

🔬 方法详解

问题定义:论文旨在解决LLM训练数据来源追踪问题,即识别哪些网络爬虫正在为特定的LLM提供数据。现有方法,如依赖公司自愿披露或人工分析User-Agent,存在信息不完整、易伪造、效率低等问题,无法有效应对大规模爬虫行为。网站所有者难以有效控制针对其网站的恶意爬取行为。

核心思路:核心思想是利用Canary Token技术,为每个访问网站的爬虫分配唯一的Token。如果某个LLM的生成内容中包含特定爬虫的Token,则可以推断该LLM使用了该爬虫爬取的数据。这种方法无需爬虫主动声明,而是通过LLM的输出来反向推断其数据来源。

技术框架:整体框架包含以下几个主要阶段: 1. Canary Token生成与部署:创建一个动态网站,为每个访问者(包括爬虫)生成并分配唯一的Canary Token,并将Token嵌入到网页内容中。 2. LLM Prompting:向目标LLM系统发送Prompt,询问关于该动态网站的信息,并记录LLM的输出。 3. Token检测与关联:分析LLM的输出,检测是否存在与特定爬虫相关的Canary Token。如果LLM的输出中频繁出现某个爬虫的Token,则认为该LLM使用了该爬虫爬取的数据。 4. 爬虫识别与报告:根据Token的关联关系,识别为LLM提供数据的爬虫,并生成报告。

关键创新:该方法的核心创新在于利用Canary Token技术,将爬虫识别问题转化为LLM输出内容的分析问题。与传统的依赖爬虫自身声明的方法不同,该方法通过LLM的输出来反向推断其数据来源,从而避免了爬虫伪装和信息不透明的问题。此外,该方法是自动化的,可以大规模地应用于不同的LLM系统。

关键设计:关键设计包括: 1. Token生成策略:Token需要足够随机和唯一,以避免碰撞和伪造。 2. 网站动态内容生成:确保每个爬虫访问时都能获得唯一的Token,并将其嵌入到网页的不同位置。 3. LLM Prompt设计:Prompt需要能够引导LLM生成包含网站信息的内容,以便检测Token。 4. Token检测算法:需要设计高效准确的Token检测算法,以识别LLM输出中的Token。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

通过对22个生产LLM系统的实验,该方法成功识别了多个为LLM提供数据的爬虫,包括一些未公开或未被公司披露的爬虫。实验结果表明,该方法能够可靠地识别哪些爬虫为哪些LLM提供数据,为控制恶意爬取提供了有效手段。具体性能数据和对比基线未在摘要中明确提及。

🎯 应用场景

该研究成果可应用于识别和控制LLM训练数据的来源,帮助网站所有者限制恶意爬取行为,保护网站内容和数据安全。同时,该方法也有助于提高LLM训练数据的质量和透明度,促进LLM技术的健康发展。未来,该技术可扩展到其他AI模型的数据来源追踪,并应用于版权保护、隐私保护等领域。

📄 摘要(原文)

From pre-training to query-time augmentation, web-scraped data helps to improve the quality and contextual relevancy of content generated by large language models (LLMs). However, large-scale web scraping to feed LLMs can affect site stability and raise legal, privacy, or ethics concerns. If website owners wish to limit LLM-related web scraping on their site, due to these or other concerns, they may turn to scraper access control mechanisms like the Robots Exclusion Protocol. To be most effective, such mechanisms require site owners to first identify the scrapers that they wish to restrict (e.g., via User-Agent strings). Existing mechanisms to identify LLM-related scrapers rely on voluntary disclosure by companies, one-off experiments by researchers, or crowd-sourced reports -- methods that are neither reliable nor scalable. This paper proposes a novel technique for accurately and automatically inferring LLM-related scrapers. We host dynamic websites that serve unique canary tokens to each visiting scraper, then prompt LLMs for information about our sites. If an LLM consistently generates outputs containing tokens unique to a scraper, it provides evidence of exposure to that scraper. Via experiments across 22 production LLM systems, we demonstrate that our approach can reliably identify which scrapers feed which LLM, including several that are not publicly known or disclosed by the companies. Our approach provides a promising avenue for unprivileged third parties to infer which scrapers serve data to which LLMs, potentially enabling better control over unwanted scraping.