On the Salience of Low-Probability Tokens for AI-Generated Text Detection: A Multiscale Uncertainty Perspective

📄 arXiv: 2606.02158v1 📥 PDF

作者: Yikai Guo, Bin Wang, Xilai Fan, Wenjun Ke, Haoran Luo

分类: cs.CL

发布日期: 2026-06-01

备注: Accepted by ICML 2026 main conference

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于多尺度不确定性的AI生成文本检测方法,关注低概率token的显著性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: AI生成文本检测 低概率token 多尺度不确定性 Rényi熵 条件独立采样

📋 核心要点

  1. 现有AI生成文本检测方法易受通用token干扰,且依赖单一概率估计导致鲁棒性不足。
  2. 论文提出Uncertainty方法,通过多尺度分析低概率token的不确定性来区分AI生成文本。
  3. 实验表明,Uncertainty及其扩展Uncertainty++在多个数据集和LLM上表现出高有效性、泛化性和鲁棒性。

📝 摘要(中文)

AI生成文本与人类写作的融合日益紧密,带来了诸如虚假信息、学术不端和语料库污染等实际风险。统计检测器因其效率和泛化能力而备受关注,但存在两个主要局限性。(i)样板文本主导,人类和LLM写作中共享的样板token会淹没判别信号。(ii)脆弱的点估计,依赖单一概率得分导致在对抗性操纵下决策不稳定。为了解决这些问题,我们提出Uncertainty,一种多尺度不确定性估计器,专注于信息量丰富的低概率token,这些token更清晰地揭示了分布差异。在局部,它通过平均低概率token的对数概率来缓解样板文本主导问题;在全局,它通过Rényi熵捕获低概率区域的分布形状,从而降低脆性。我们进一步通过条件独立采样将检测器扩展到Uncertainty++,从而产生更稳定的不确定性估计。在七个数据集和十六个LLM上的实验证明了其高效性、泛化性和鲁棒性。代码已开源。

🔬 方法详解

问题定义:当前AI生成文本检测器,特别是基于统计的方法,容易受到“样板文本”的影响,即人类和LLM都常用的token会掩盖AI生成文本的独特特征。此外,依赖单一概率得分进行判断,使得检测器容易受到对抗攻击,鲁棒性较差。

核心思路:论文的核心思想是关注低概率token,因为这些token更能体现AI生成文本与人类写作的分布差异。通过分析这些低概率token的不确定性,可以更有效地识别AI生成文本,同时提高检测器的鲁棒性。

技术框架:该方法主要包含两个阶段:局部不确定性估计和全局不确定性估计。局部不确定性估计通过平均低概率token的对数概率来缓解样板文本的影响。全局不确定性估计则通过Rényi熵来捕获低概率区域的分布形状,从而降低脆性。Uncertainty++通过条件独立采样进一步提升不确定性估计的稳定性。

关键创新:该方法的关键创新在于将多尺度不确定性估计应用于低概率token,从而更有效地捕捉AI生成文本的特征。与传统方法不同,该方法不依赖于单一概率得分,而是关注低概率区域的整体分布,从而提高了鲁棒性。

关键设计:论文使用了Rényi熵来度量低概率区域的分布形状。Rényi熵是一种广义熵,可以通过调整参数来控制对不同概率值的敏感度。此外,Uncertainty++中使用的条件独立采样旨在减少不确定性估计的方差,提高稳定性。具体的参数设置和采样策略在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Uncertainty方法在七个数据集和十六个LLM上均表现出优异的性能。相较于现有方法,Uncertainty在检测准确率、泛化性和鲁棒性方面均有显著提升。特别地,Uncertainty++通过条件独立采样进一步提高了检测的稳定性,在对抗攻击下表现出更强的鲁棒性。具体性能数据可在论文中查阅。

🎯 应用场景

该研究成果可应用于检测虚假新闻、防止学术不端行为、识别AI生成的恶意内容等领域。通过提高AI生成文本检测的准确性和鲁棒性,有助于维护信息安全和学术诚信,并为未来AI内容监管提供技术支持。该方法具有较强的泛化能力,可以应用于不同类型的LLM生成的文本检测。

📄 摘要(原文)

AI-generated text increasingly blends with human writing, raising practical risks such as misinformation, academic misuse, and corpora contamination. While statistical detectors are appealing for efficiency and generalization, they suffer from two key limitations. (i) Boilerplate dominance, boilerplate tokens shared across human and LLM writing can overwhelm discriminative signals. (ii) Brittle point estimates, relying on a single probability score yields unstable decisions under adversarial manipulations. To address these issues, we propose Uncertainty, a multiscale uncertainty estimator that focuses on informative low-probability tokens, which more clearly expose distributional discrepancies. Locally, it alleviates boilerplate dominance by averaging the log-probabilities of low-probability tokens; globally, it reduces brittleness by capturing the distributional shape of this low-probability region via Rényi entropy. We further extend the detector to Uncertainty++ via conditional independent sampling, yielding a more stable uncertainty estimation. Experiments across seven datasets and sixteen LLMs demonstrate high effectiveness, generalization, and robustness. Our code is available at https://github.com/guoyikai2000/Uncertainty-AIGT.