M-DAIGT: A Shared Task on Multi-Domain Detection of AI-Generated Text
作者: Salima Lamsiyah, Saad Ezzini, Abdelkader El Mahdaouy, Hamza Alami, Abdessamad Benlahbib, Samir El Amrany, Salmane Chafik, Hicham Hammouchi
分类: cs.CL, cs.AI
发布日期: 2025-11-14
💡 一句话要点
M-DAIGT:多领域AI生成文本检测共享任务与大规模基准数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI生成文本检测 多领域学习 自然语言处理 大型语言模型 共享任务
📋 核心要点
- 大型语言模型生成的高度流畅的文本对信息完整性和学术研究构成了重大挑战,亟需有效检测方法。
- M-DAIGT共享任务旨在通过提供多领域(新闻和学术)的AI生成文本检测任务,促进相关技术发展。
- 论文构建并发布了一个包含30,000个样本的大规模基准数据集,为AI生成文本检测研究提供了有力支持。
📝 摘要(中文)
本文介绍了多领域AI生成文本检测(M-DAIGT)共享任务,该任务专注于检测新闻文章和学术写作等多领域中的AI生成文本。M-DAIGT包含两个二元分类子任务:新闻文章检测(NAD,子任务1)和学术写作检测(AWD,子任务2)。为了支持这项任务,我们开发并发布了一个新的大规模基准数据集,包含30,000个样本,在人工撰写和AI生成文本之间保持平衡。AI生成的内容使用各种现代LLM(例如,GPT-4,Claude)和不同的提示策略生成。共有46个独特的团队注册参加了共享任务,其中四个团队提交了最终结果。所有四个团队都参与了子任务1和子任务2。我们描述了这些参与团队使用的方法,并简要讨论了M-DAIGT的未来方向。
🔬 方法详解
问题定义:论文旨在解决多领域(新闻文章和学术写作)中AI生成文本的检测问题。现有方法在跨领域泛化能力和对新型AI生成文本的适应性方面存在不足,难以有效应对不断发展的AI生成技术。
核心思路:论文的核心思路是通过构建一个包含多样化AI生成文本的大规模基准数据集,并组织共享任务,鼓励研究人员开发更具鲁棒性和泛化能力的AI生成文本检测模型。通过共享任务的形式,促进不同方法的比较和交流。
技术框架:M-DAIGT共享任务包含两个二元分类子任务:新闻文章检测(NAD)和学术写作检测(AWD)。参与者需要提交能够区分人工撰写和AI生成文本的模型。组织者提供包含30,000个样本的基准数据集,用于模型的训练和评估。
关键创新:该论文的关键创新在于构建了一个大规模、多领域、包含多样化AI生成文本的基准数据集。该数据集使用了多种现代LLM(如GPT-4和Claude)和不同的提示策略生成AI文本,更贴近实际应用场景,对现有检测方法提出了更高的挑战。
关键设计:数据集包含30,000个样本,人工撰写和AI生成文本各占一半,保证了数据集的平衡性。AI生成文本使用了多种LLM和提示策略,增加了数据的多样性。评估指标采用二元分类的常用指标,如准确率、精确率、召回率和F1值等(具体评估指标未在摘要中明确说明,此处为推测)。
📊 实验亮点
共有46个团队注册参加了M-DAIGT共享任务,最终有4个团队提交了结果。这表明该任务吸引了广泛的关注,并促进了AI生成文本检测领域的研究。虽然摘要中没有提供具体的性能数据,但共享任务的组织和数据集的发布为后续研究提供了重要的基准和资源。
🎯 应用场景
该研究成果可应用于新闻真实性验证、学术诚信检测、内容安全审核等领域。通过准确识别AI生成文本,可以有效防止虚假信息的传播,维护学术研究的公正性,保障网络内容的健康发展。未来,该研究可扩展到更多领域,例如社交媒体内容检测、广告欺诈识别等。
📄 摘要(原文)
The generation of highly fluent text by Large Language Models (LLMs) poses a significant challenge to information integrity and academic research. In this paper, we introduce the Multi-Domain Detection of AI-Generated Text (M-DAIGT) shared task, which focuses on detecting AI-generated text across multiple domains, particularly in news articles and academic writing. M-DAIGT comprises two binary classification subtasks: News Article Detection (NAD) (Subtask 1) and Academic Writing Detection (AWD) (Subtask 2). To support this task, we developed and released a new large-scale benchmark dataset of 30,000 samples, balanced between human-written and AI-generated texts. The AI-generated content was produced using a variety of modern LLMs (e.g., GPT-4, Claude) and diverse prompting strategies. A total of 46 unique teams registered for the shared task, of which four teams submitted final results. All four teams participated in both Subtask 1 and Subtask 2. We describe the methods employed by these participating teams and briefly discuss future directions for M-DAIGT.