Exons-Detect: Identifying and Amplifying Exonic Tokens via Hidden-State Discrepancy for Robust AI-Generated Text Detection

📄 arXiv: 2603.24981v1 📥 PDF

作者: Xiaowei Zhu, Yubing Ren, Fang Fang, Shi Wang, Yanan Cao, Li Guo

分类: cs.CL

发布日期: 2026-03-26


💡 一句话要点

提出Exons-Detect以解决AI生成文本检测的鲁棒性问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成文本 文本检测 鲁棒性 外显子感知 无训练方法 对抗攻击 隐藏状态差异 信息安全

📋 核心要点

  1. 现有无训练方法在聚合令牌信号时假设贡献均匀,导致在短序列或局部修改下鲁棒性不足。
  2. Exons-Detect通过外显子感知令牌重加权,利用隐藏状态差异来识别和放大重要令牌。
  3. 实验证明Exons-Detect在DetectRL数据集上相较于最强基线提升了2.2%的平均AUROC,表现出色。

📝 摘要(中文)

随着大型语言模型的快速发展,人类撰写文本与AI生成文本之间的界限日益模糊,带来了信息误导、作者身份不明和知识产权威胁等社会风险。因此,迫切需要有效且可靠的检测方法。现有的无训练方法通常通过聚合令牌级信号来实现强性能,但假设令牌贡献均匀,使其在短序列或局部令牌修改下的鲁棒性不足。为了解决这些局限性,本文提出了Exons-Detect,这是一种基于外显子感知令牌重加权的无训练AI生成文本检测方法。Exons-Detect通过在双模型设置下测量隐藏状态差异来识别和放大信息丰富的外显子令牌,并从结果中计算出可解释的翻译分数。实证评估表明,Exons-Detect在检测性能上达到了最先进水平,并对对抗攻击和输入长度变化表现出强鲁棒性。

🔬 方法详解

问题定义:本文旨在解决AI生成文本检测中的鲁棒性问题,现有方法在短序列和局部修改情况下表现不佳,难以有效识别生成文本。

核心思路:Exons-Detect的核心思路是通过外显子感知的令牌重加权,识别并放大信息丰富的令牌,从而提高检测的准确性和鲁棒性。

技术框架:该方法采用双模型设置,首先通过两个模型计算隐藏状态,然后测量其差异以识别重要令牌,最后计算可解释的翻译分数。

关键创新:Exons-Detect的创新在于其外显子感知的令牌重加权机制,与传统方法假设均匀贡献不同,能够更有效地处理短序列和局部修改。

关键设计:在设计中,采用了特定的损失函数来优化令牌的重要性权重,并通过双模型架构增强了对抗攻击的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Exons-Detect在DetectRL数据集上实现了相较于最强基线2.2%的平均AUROC提升,展现出卓越的检测性能。此外,该方法在对抗攻击和不同输入长度下表现出强鲁棒性,进一步验证了其有效性。

🎯 应用场景

Exons-Detect可广泛应用于内容审核、社交媒体监控和学术诚信等领域,帮助识别和防止AI生成文本带来的潜在风险。其鲁棒性和高准确性使其在实际应用中具有重要价值,能够有效维护信息的真实性和作者的权益。

📄 摘要(原文)

The rapid advancement of large language models has increasingly blurred the boundary between human-written and AI-generated text, raising societal risks such as misinformation dissemination, authorship ambiguity, and threats to intellectual property rights. These concerns highlight the urgent need for effective and reliable detection methods. While existing training-free approaches often achieve strong performance by aggregating token-level signals into a global score, they typically assume uniform token contributions, making them less robust under short sequences or localized token modifications. To address these limitations, we propose Exons-Detect, a training-free method for AI-generated text detection based on an exon-aware token reweighting perspective. Exons-Detect identifies and amplifies informative exonic tokens by measuring hidden-state discrepancy under a dual-model setting, and computes an interpretable translation score from the resulting importance-weighted token sequence. Empirical evaluations demonstrate that Exons-Detect achieves state-of-the-art detection performance and exhibits strong robustness to adversarial attacks and varying input lengths. In particular, it attains a 2.2\% relative improvement in average AUROC over the strongest prior baseline on DetectRL.