LLMTrace: A Corpus for Classification and Fine-Grained Localization of AI-Written Text

作者: Irina Tolstykh, Aleksandra Tsybina, Sergey Yakubson, Maksim Kuprashevich

分类: cs.CL

发布日期: 2025-09-25

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

LLMTrace：用于AI生成文本分类与精细定位的双语数据集

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 大型语言模型 双语数据集 字符级别标注 混合人机写作

📋 核心要点

现有AI文本检测数据集存在模型过时、语种单一（主要为英语）以及缺乏混合人机写作场景覆盖等问题。
LLMTrace旨在构建一个大规模、双语（英语和俄语）的AI生成文本检测语料库，以支持更细粒度的AI文本定位。
该数据集支持全文二元分类和AI生成区间检测，通过字符级别的标注实现AI生成文本的精确定位。

📝 摘要（中文）

大型语言模型(LLMs)生成类人文本的广泛应用，需要开发强大的检测系统。然而，由于缺乏合适的训练数据，进展受到限制；现有的数据集通常使用过时的模型生成，主要为英语，并且未能解决日益普遍的混合人机写作场景。关键的是，虽然一些数据集解决了混合写作问题，但没有提供字符级别的注释，而这对于精确地定位文本中AI生成的部分是必需的。为了解决这些差距，我们引入了LLMTrace，这是一个新的大规模双语（英语和俄语）AI生成文本检测语料库。我们的数据集使用各种现代专有和开源LLM构建，旨在支持两个关键任务：传统的全文二元分类（人类 vs. AI）和AI生成区间检测的新任务，这得益于字符级别的注释。我们相信LLMTrace将成为训练和评估下一代更细致和实用的AI检测模型的关键资源。

🔬 方法详解

问题定义：论文旨在解决AI生成文本检测领域中，现有数据集不足的问题。具体来说，现有数据集存在以下痛点：1) 使用过时的LLM生成数据，无法反映当前AI生成文本的真实情况；2) 主要集中在英语语种，缺乏对其他语种的支持；3) 难以处理混合人机写作的场景；4) 缺乏字符级别的标注，无法精确定位AI生成的文本片段。

核心思路：论文的核心思路是构建一个大规模、双语（英语和俄语）、包含混合人机写作样本，并且具有字符级别标注的AI生成文本检测数据集。通过提供更全面、更细粒度的数据，促进AI文本检测模型的发展。

技术框架：LLMTrace数据集的构建流程主要包括以下几个阶段：1) 选择多样化的LLM：选择一系列现代的、既有专有也有开源的LLM，以保证生成文本的多样性；2) 生成文本：使用选定的LLM生成纯AI文本，并与人工撰写的文本混合，模拟混合人机写作场景；3) 字符级别标注：对文本进行字符级别的标注，标记出AI生成的文本片段；4) 数据集划分：将数据集划分为训练集、验证集和测试集，用于模型的训练和评估。

关键创新：LLMTrace数据集的关键创新在于：1) 大规模和双语：提供大规模的英语和俄语数据，覆盖更广泛的应用场景；2) 混合人机写作：包含混合人机写作的样本，更贴近实际应用；3) 字符级别标注：提供字符级别的标注，支持AI生成文本的精确定位。

关键设计：论文中没有详细描述具体的参数设置、损失函数或网络结构，因为LLMTrace是一个数据集，而非一个具体的模型。关键的设计在于数据集的构建方式，例如如何选择LLM、如何生成混合人机写作的样本、以及如何进行字符级别的标注。这些设计旨在保证数据集的多样性、真实性和可用性。

📊 实验亮点

LLMTrace数据集是首个提供字符级别标注的大规模双语AI生成文本检测数据集。它使用多种现代LLM生成数据，并包含混合人机写作样本，更贴近实际应用场景。该数据集为训练和评估更细致、更实用的AI检测模型提供了重要资源，有望推动AI文本检测技术的发展。

🎯 应用场景

LLMTrace数据集可广泛应用于AI生成内容检测、内容安全、学术诚信检测等领域。通过训练基于LLMTrace的AI检测模型，可以有效识别和定位AI生成的文本，从而防止AI被滥用，维护网络内容质量，保障学术研究的公正性。未来，该数据集可以扩展到更多语种和领域，为AI内容治理提供更强大的支持。

📄 摘要（原文）

The widespread use of human-like text from Large Language Models (LLMs) necessitates the development of robust detection systems. However, progress is limited by a critical lack of suitable training data; existing datasets are often generated with outdated models, are predominantly in English, and fail to address the increasingly common scenario of mixed human-AI authorship. Crucially, while some datasets address mixed authorship, none provide the character-level annotations required for the precise localization of AI-generated segments within a text. To address these gaps, we introduce LLMTrace, a new large-scale, bilingual (English and Russian) corpus for AI-generated text detection. Constructed using a diverse range of modern proprietary and open-source LLMs, our dataset is designed to support two key tasks: traditional full-text binary classification (human vs. AI) and the novel task of AI-generated interval detection, facilitated by character-level annotations. We believe LLMTrace will serve as a vital resource for training and evaluating the next generation of more nuanced and practical AI detection models. The project page is available at \href{https://sweetdream779.github.io/LLMTrace-info/}{iitolstykh/LLMTrace}.

LLMTrace: A Corpus for Classification and Fine-Grained Localization of AI-Written Text

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册