EnsemJudge: Enhancing Reliability in Chinese LLM-Generated Text Detection through Diverse Model Ensembles

📄 arXiv: 2603.27949v1 📥 PDF

作者: Zhuoshang Wang, Yubing Ren, Guoyu Zhao, Xiaowei Zhu, Hao Li, Yanan Cao

分类: cs.CL

发布日期: 2026-03-30

备注: Accepted by NLPCC 2025 Shared Tasks

🔗 代码/项目: GITHUB


💡 一句话要点

EnsemJudge:通过多样模型集成提升中文LLM生成文本检测的可靠性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM文本检测 中文文本 模型集成 鲁棒性 集成学习

📋 核心要点

  1. 现有LLM文本检测方法在真实场景中,面对领域外数据或对抗样本时,性能会显著下降,鲁棒性不足。
  2. EnsemJudge框架通过定制策略和集成投票机制,提升了中文LLM生成文本检测的可靠性和鲁棒性。
  3. 在NLPCC2025 Shared Task 1数据集上,EnsemJudge超越所有基线方法,取得了第一名的成绩,验证了其有效性。

📝 摘要(中文)

大型语言模型(LLMs)因其强大的文本生成能力而被广泛应用于各个领域。虽然LLM生成的文本通常与人类撰写的文本相似,但其滥用可能导致重大的社会风险。检测此类文本是减轻LLM滥用的重要技术,并且许多检测方法在不同的数据集上都显示出令人鼓舞的结果。然而,实际场景通常涉及领域外输入或对抗样本,这可能会不同程度地影响检测方法的性能。此外,现有的大多数研究都集中在英文文本上,而针对中文文本检测的工作有限。在本研究中,我们提出了EnsemJudge,这是一个鲁棒的框架,通过结合定制的策略和集成投票机制来检测中文LLM生成的文本。我们使用NLPCC2025 Shared Task 1提供的精心构建的中文数据集训练和评估了我们的系统。我们的方法优于所有基线方法,并在任务中获得了第一名,证明了其在中文LLM生成文本检测中的有效性和可靠性。我们的代码可在https://github.com/johnsonwangzs/MGT-Mini上找到。

🔬 方法详解

问题定义:论文旨在解决中文大型语言模型(LLM)生成文本的可靠检测问题。现有方法在处理真实场景中常见的领域外数据和对抗样本时,检测性能会显著下降,缺乏足够的鲁棒性。此外,现有研究主要集中在英文文本检测,对中文文本的关注较少。

核心思路:论文的核心思路是利用多样化的模型集成来提高检测的鲁棒性。通过训练多个具有不同架构和训练方式的模型,并结合定制的策略和集成投票机制,EnsemJudge能够更准确地识别LLM生成的中文文本,即使在面对领域外数据或对抗样本时也能保持较高的性能。这种集成方法可以有效降低单个模型可能存在的偏差和误差。

技术框架:EnsemJudge框架主要包含以下几个阶段:1) 数据预处理:对输入的中文文本进行清洗和标准化。2) 特征提取:使用不同的模型提取文本的特征表示。这些模型可以是基于Transformer的预训练模型,也可以是其他类型的文本分类模型。3) 模型训练:使用精心构建的中文数据集训练多个检测模型。4) 集成投票:将多个模型的预测结果进行集成,通过投票机制确定最终的检测结果。

关键创新:EnsemJudge的关键创新在于其集成了多种策略和模型,并采用了集成投票机制。这种集成方法能够有效提高检测的鲁棒性,使其在面对复杂和多变的真实场景时也能保持较高的性能。此外,该研究专注于中文文本检测,填补了该领域的研究空白。

关键设计:论文中没有详细说明具体的模型架构、损失函数或参数设置等技术细节。但是,可以推断,模型选择可能包括不同类型的Transformer模型(例如BERT、RoBERTa等),损失函数可能采用交叉熵损失,集成投票机制可能采用加权投票或多数投票等方法。具体的参数设置和网络结构需要参考论文的后续版本或代码实现。

🖼️ 关键图片

fig_0

📊 实验亮点

EnsemJudge在NLPCC2025 Shared Task 1的中文LLM生成文本检测任务中取得了第一名的成绩,超越了所有基线方法。这一结果表明,EnsemJudge框架在中文LLM生成文本检测方面具有显著的优势和有效性,尤其是在处理真实场景中的复杂数据时,其鲁棒性得到了充分验证。

🎯 应用场景

该研究成果可应用于内容安全、舆情监控、学术诚信等多个领域。通过准确检测LLM生成的文本,可以有效防止虚假信息的传播,维护网络空间的健康秩序,并保障学术研究的原创性和真实性。未来,该技术还可用于辅助内容创作,例如自动识别和修改LLM生成文本中的不当内容。

📄 摘要(原文)

Large Language Models (LLMs) are widely applied across various domains due to their powerful text generation capabilities. While LLM-generated texts often resemble human-written ones, their misuse can lead to significant societal risks. Detecting such texts is an essential technique for mitigating LLM misuse, and many detection methods have shown promising results across different datasets. However, real-world scenarios often involve out-of-domain inputs or adversarial samples, which can affect the performance of detection methods to varying degrees. Furthermore, most existing research has focused on English texts, with limited work addressing Chinese text detection. In this study, we propose EnsemJudge, a robust framework for detecting Chinese LLM-generated text by incorporating tailored strategies and ensemble voting mechanisms. We trained and evaluated our system on a carefully constructed Chinese dataset provided by NLPCC2025 Shared Task 1. Our approach outperformed all baseline methods and achieved first place in the task, demonstrating its effectiveness and reliability in Chinese LLM-generated text detection. Our code is available at https://github.com/johnsonwangzs/MGT-Mini.