MELD: Multi-Task Equilibrated Learning Detector for AI-Generated Text

作者: Chenjun Li, Cheng Wan, Johannes C. Paetzold

分类: cs.CL, cs.AI

发布日期: 2026-05-07

备注: 17 pages, 6 figures

💡 一句话要点

提出MELD多任务平衡学习检测器，通过辅助监督与对抗蒸馏提升AI生成文本检测的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 多任务学习 对抗蒸馏 鲁棒性学习 自然语言处理 模型泛化

📋 核心要点

现有检测器多采用单一二分类目标，在面对对抗攻击、跨领域迁移及低误报率场景时，特征表示能力易饱和且泛化性较差。
MELD通过引入多任务辅助监督（生成器、攻击类型、源域）与对抗蒸馏机制，强制编码器学习更具鲁棒性的文本结构特征。
实验表明，MELD在RAID基准及最新LLM评估集上表现领先，特别是在高对抗环境下，能有效维持极低的误报率并保持高检测召回率。

📝 摘要（中文）

大型语言模型已深度融入日常写作，可靠的AI生成文本检测对于学术诚信、内容审核及溯源至关重要。然而，现有检测器在面对对抗性重写、跨生成器迁移及低误报率（FPR）要求时表现不足。大多数方法仅优化单一的二分类目标，导致模型在饱和后难以学习更深层的生成器特征、攻击模式或领域结构。本文提出了MELD（多任务平衡学习检测器），通过引入生成器家族、攻击类型和源域等辅助监督任务，并利用同方差不确定性加权平衡多任务损失。此外，MELD结合了EMA教师-学生对抗蒸馏机制与硬负样本成对排序损失，显著增强了模型的鲁棒性。在RAID排行榜及自建的MELD-eval数据集上，MELD表现出卓越的性能，在1% FPR下实现了99.9%的TPR，优于现有主流开源及商业模型。

🔬 方法详解

问题定义：论文旨在解决AI生成文本检测器在实际部署中面临的鲁棒性瓶颈，特别是模型在面对对抗性改写、未知生成器模型以及严苛的低误报率（FPR）要求时，单一二分类目标导致的特征表示能力不足问题。

核心思路：核心思想是通过多任务学习（Multi-Task Learning）丰富特征空间的语义信息，利用辅助任务引导编码器捕捉生成器指纹、攻击模式和领域特征，从而在不增加推理成本的前提下提升模型的泛化能力与抗干扰能力。

技术框架：MELD采用共享编码器架构，挂载生成器家族、攻击类型和源域三个辅助分类头。训练过程引入EMA教师模型，通过对抗蒸馏（Distillation）将攻击增强后的学生模型特征对齐至干净输入的教师模型，并在推理阶段移除所有辅助头，保持轻量化部署。

关键创新：最重要的创新在于引入了“多任务平衡学习”与“对抗蒸馏”的结合，通过同方差不确定性（Homoscedastic Uncertainty）自动调节多任务损失权重，并利用硬负样本排序损失（Hard-Negative Pairwise Ranking Loss）拉大AI文本与易混淆人类文本的得分间距。

关键设计：关键技术细节包括：使用EMA（指数移动平均）更新教师模型以提供稳定的监督信号；采用硬负样本挖掘策略优化排序损失；在推理时仅保留主干网络，确保与标准检测器一致的计算复杂度。

🖼️ 关键图片

📊 实验亮点

MELD在RAID排行榜上表现为最强开源检测器，性能媲美顶级商业模型。在自建的MELD-eval数据集（涵盖四家主流LLM厂商的最新模型）上，MELD在1% FPR下达到了99.9%的TPR，展现了极强的跨模型泛化能力，且在对抗性重写攻击下，其性能衰减显著低于现有基线模型。

🎯 应用场景

MELD可广泛应用于学术诚信检测、社交媒体内容审核、新闻溯源及版权保护领域。其在低误报率下的高召回能力，使其特别适合对准确性要求极高的自动化过滤系统，能够有效抵御针对检测器的对抗性攻击，为构建可信的AI内容生态提供技术支撑。

📄 摘要（原文）

Large language models are now embedded in everyday writing workflows, making reliable AI-generated text detection important for academic integrity, content moderation, and provenance tracking. In practice, however, a detector must do more than achieve high aggregate AUROC on clean, in-distribution human and AI text: it should remain robust to attacks and adversarial rewrites, transfer to unseen generators and domains, and operate at low false-positive rates (FPR). Most existing detectors optimize a single AI/Human objective, giving the representation little incentive to learn generator, attack, or domain structure once the binary task saturates. We introduce MELD (Multi-Task Equilibrated Learning Detector), a deployable detector for AI-generated text that enriches binary detection with auxiliary supervision. MELD attaches generator-family, attack-type, and source-domain heads to a shared encoder, and balances the four losses with learned homoscedastic uncertainty weights. To improve robustness, an EMA teacher predicts on clean inputs while an attack-augmented student is distilled toward the teacher. MELD further uses a hard-negative pairwise ranking loss to enlarge the score margin between AI-generated texts and the most confusable human texts. At inference, all auxiliary heads are discarded, giving MELD the same interface and cost as a standard detector. On the public RAID leaderboard, MELD is the strongest open-source detector and is competitive with leading commercial models, especially under attack and at low FPR. Across standard held-out benchmarks, MELD matches or outperforms supervised baselines. We further introduce MELD-eval, a held-out evaluation pool built from recent chat models released by four major LLM providers. Without additional finetuning, MELD achieves 99.9% TPR at 1% FPR on MELD-eval, while many baselines degrade sharply.

MELD: Multi-Task Equilibrated Learning Detector for AI-Generated Text

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理