LLMTrace: A Corpus for Classification and Fine-Grained Localization of AI-Written Text
作者: Irina Tolstykh, Aleksandra Tsybina, Sergey Yakubson, Maksim Kuprashevich
分类: cs.CL
发布日期: 2025-09-25
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
LLMTrace:用于AI生成文本分类与精细定位的双语数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI生成文本检测 大型语言模型 双语数据集 字符级别标注 混合人机写作
📋 核心要点
- 现有AI文本检测数据集存在模型过时、语种单一(主要为英语)以及缺乏混合人机写作场景覆盖等问题。
- LLMTrace旨在构建一个大规模、双语(英语和俄语)的AI生成文本检测语料库,以支持更细粒度的AI文本定位。
- 该数据集支持全文二元分类和AI生成区间检测,通过字符级别的标注实现AI生成文本的精确定位。
📝 摘要(中文)
大型语言模型(LLMs)生成类人文本的广泛应用,需要开发强大的检测系统。然而,由于缺乏合适的训练数据,进展受到限制;现有的数据集通常使用过时的模型生成,主要为英语,并且未能解决日益普遍的混合人机写作场景。关键的是,虽然一些数据集解决了混合写作问题,但没有提供字符级别的注释,而这对于精确地定位文本中AI生成的部分是必需的。为了解决这些差距,我们引入了LLMTrace,这是一个新的大规模双语(英语和俄语)AI生成文本检测语料库。我们的数据集使用各种现代专有和开源LLM构建,旨在支持两个关键任务:传统的全文二元分类(人类 vs. AI)和AI生成区间检测的新任务,这得益于字符级别的注释。我们相信LLMTrace将成为训练和评估下一代更细致和实用的AI检测模型的关键资源。
🔬 方法详解
问题定义:论文旨在解决AI生成文本检测领域中,现有数据集不足的问题。具体来说,现有数据集存在以下痛点:1) 使用过时的LLM生成数据,无法反映当前AI生成文本的真实情况;2) 主要集中在英语语种,缺乏对其他语种的支持;3) 难以处理混合人机写作的场景;4) 缺乏字符级别的标注,无法精确定位AI生成的文本片段。
核心思路:论文的核心思路是构建一个大规模、双语(英语和俄语)、包含混合人机写作样本,并且具有字符级别标注的AI生成文本检测数据集。通过提供更全面、更细粒度的数据,促进AI文本检测模型的发展。
技术框架:LLMTrace数据集的构建流程主要包括以下几个阶段:1) 选择多样化的LLM:选择一系列现代的、既有专有也有开源的LLM,以保证生成文本的多样性;2) 生成文本:使用选定的LLM生成纯AI文本,并与人工撰写的文本混合,模拟混合人机写作场景;3) 字符级别标注:对文本进行字符级别的标注,标记出AI生成的文本片段;4) 数据集划分:将数据集划分为训练集、验证集和测试集,用于模型的训练和评估。
关键创新:LLMTrace数据集的关键创新在于:1) 大规模和双语:提供大规模的英语和俄语数据,覆盖更广泛的应用场景;2) 混合人机写作:包含混合人机写作的样本,更贴近实际应用;3) 字符级别标注:提供字符级别的标注,支持AI生成文本的精确定位。
关键设计:论文中没有详细描述具体的参数设置、损失函数或网络结构,因为LLMTrace是一个数据集,而非一个具体的模型。关键的设计在于数据集的构建方式,例如如何选择LLM、如何生成混合人机写作的样本、以及如何进行字符级别的标注。这些设计旨在保证数据集的多样性、真实性和可用性。
📊 实验亮点
LLMTrace数据集是首个提供字符级别标注的大规模双语AI生成文本检测数据集。它使用多种现代LLM生成数据,并包含混合人机写作样本,更贴近实际应用场景。该数据集为训练和评估更细致、更实用的AI检测模型提供了重要资源,有望推动AI文本检测技术的发展。
🎯 应用场景
LLMTrace数据集可广泛应用于AI生成内容检测、内容安全、学术诚信检测等领域。通过训练基于LLMTrace的AI检测模型,可以有效识别和定位AI生成的文本,从而防止AI被滥用,维护网络内容质量,保障学术研究的公正性。未来,该数据集可以扩展到更多语种和领域,为AI内容治理提供更强大的支持。
📄 摘要(原文)
The widespread use of human-like text from Large Language Models (LLMs) necessitates the development of robust detection systems. However, progress is limited by a critical lack of suitable training data; existing datasets are often generated with outdated models, are predominantly in English, and fail to address the increasingly common scenario of mixed human-AI authorship. Crucially, while some datasets address mixed authorship, none provide the character-level annotations required for the precise localization of AI-generated segments within a text. To address these gaps, we introduce LLMTrace, a new large-scale, bilingual (English and Russian) corpus for AI-generated text detection. Constructed using a diverse range of modern proprietary and open-source LLMs, our dataset is designed to support two key tasks: traditional full-text binary classification (human vs. AI) and the novel task of AI-generated interval detection, facilitated by character-level annotations. We believe LLMTrace will serve as a vital resource for training and evaluating the next generation of more nuanced and practical AI detection models. The project page is available at \href{https://sweetdream779.github.io/LLMTrace-info/}{iitolstykh/LLMTrace}.