MELD: Multi-Task Equilibrated Learning Detector for AI-Generated Text

📄 arXiv: 2605.06903v1 📥 PDF

作者: Chenjun Li, Cheng Wan, Johannes C. Paetzold

分类: cs.CL, cs.AI

发布日期: 2026-05-07

备注: 17 pages, 6 figures


💡 一句话要点

提出MELD多任务平衡学习检测器,通过辅助监督与对抗蒸馏提升AI生成文本检测的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 多任务学习 对抗蒸馏 鲁棒性学习 自然语言处理 模型泛化

📋 核心要点

  1. 现有检测器多采用单一二分类目标,在面对对抗攻击、跨领域迁移及低误报率场景时,特征表示能力易饱和且泛化性较差。
  2. MELD通过引入多任务辅助监督(生成器、攻击类型、源域)与对抗蒸馏机制,强制编码器学习更具鲁棒性的文本结构特征。
  3. 实验表明,MELD在RAID基准及最新LLM评估集上表现领先,特别是在高对抗环境下,能有效维持极低的误报率并保持高检测召回率。

📝 摘要(中文)

大型语言模型已深度融入日常写作,可靠的AI生成文本检测对于学术诚信、内容审核及溯源至关重要。然而,现有检测器在面对对抗性重写、跨生成器迁移及低误报率(FPR)要求时表现不足。大多数方法仅优化单一的二分类目标,导致模型在饱和后难以学习更深层的生成器特征、攻击模式或领域结构。本文提出了MELD(多任务平衡学习检测器),通过引入生成器家族、攻击类型和源域等辅助监督任务,并利用同方差不确定性加权平衡多任务损失。此外,MELD结合了EMA教师-学生对抗蒸馏机制与硬负样本成对排序损失,显著增强了模型的鲁棒性。在RAID排行榜及自建的MELD-eval数据集上,MELD表现出卓越的性能,在1% FPR下实现了99.9%的TPR,优于现有主流开源及商业模型。

🔬 方法详解

问题定义:论文旨在解决AI生成文本检测器在实际部署中面临的鲁棒性瓶颈,特别是模型在面对对抗性改写、未知生成器模型以及严苛的低误报率(FPR)要求时,单一二分类目标导致的特征表示能力不足问题。

核心思路:核心思想是通过多任务学习(Multi-Task Learning)丰富特征空间的语义信息,利用辅助任务引导编码器捕捉生成器指纹、攻击模式和领域特征,从而在不增加推理成本的前提下提升模型的泛化能力与抗干扰能力。

技术框架:MELD采用共享编码器架构,挂载生成器家族、攻击类型和源域三个辅助分类头。训练过程引入EMA教师模型,通过对抗蒸馏(Distillation)将攻击增强后的学生模型特征对齐至干净输入的教师模型,并在推理阶段移除所有辅助头,保持轻量化部署。

关键创新:最重要的创新在于引入了“多任务平衡学习”与“对抗蒸馏”的结合,通过同方差不确定性(Homoscedastic Uncertainty)自动调节多任务损失权重,并利用硬负样本排序损失(Hard-Negative Pairwise Ranking Loss)拉大AI文本与易混淆人类文本的得分间距。

关键设计:关键技术细节包括:使用EMA(指数移动平均)更新教师模型以提供稳定的监督信号;采用硬负样本挖掘策略优化排序损失;在推理时仅保留主干网络,确保与标准检测器一致的计算复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MELD在RAID排行榜上表现为最强开源检测器,性能媲美顶级商业模型。在自建的MELD-eval数据集(涵盖四家主流LLM厂商的最新模型)上,MELD在1% FPR下达到了99.9%的TPR,展现了极强的跨模型泛化能力,且在对抗性重写攻击下,其性能衰减显著低于现有基线模型。

🎯 应用场景

MELD可广泛应用于学术诚信检测、社交媒体内容审核、新闻溯源及版权保护领域。其在低误报率下的高召回能力,使其特别适合对准确性要求极高的自动化过滤系统,能够有效抵御针对检测器的对抗性攻击,为构建可信的AI内容生态提供技术支撑。

📄 摘要(原文)

Large language models are now embedded in everyday writing workflows, making reliable AI-generated text detection important for academic integrity, content moderation, and provenance tracking. In practice, however, a detector must do more than achieve high aggregate AUROC on clean, in-distribution human and AI text: it should remain robust to attacks and adversarial rewrites, transfer to unseen generators and domains, and operate at low false-positive rates (FPR). Most existing detectors optimize a single AI/Human objective, giving the representation little incentive to learn generator, attack, or domain structure once the binary task saturates. We introduce MELD (Multi-Task Equilibrated Learning Detector), a deployable detector for AI-generated text that enriches binary detection with auxiliary supervision. MELD attaches generator-family, attack-type, and source-domain heads to a shared encoder, and balances the four losses with learned homoscedastic uncertainty weights. To improve robustness, an EMA teacher predicts on clean inputs while an attack-augmented student is distilled toward the teacher. MELD further uses a hard-negative pairwise ranking loss to enlarge the score margin between AI-generated texts and the most confusable human texts. At inference, all auxiliary heads are discarded, giving MELD the same interface and cost as a standard detector. On the public RAID leaderboard, MELD is the strongest open-source detector and is competitive with leading commercial models, especially under attack and at low FPR. Across standard held-out benchmarks, MELD matches or outperforms supervised baselines. We further introduce MELD-eval, a held-out evaluation pool built from recent chat models released by four major LLM providers. Without additional finetuning, MELD achieves 99.9% TPR at 1% FPR on MELD-eval, while many baselines degrade sharply.