System Report for CCL25-Eval Task 10: Prompt-Driven Large Language Model Merge for Fine-Grained Chinese Hate Speech Detection

📄 arXiv: 2512.09563v1 📥 PDF

作者: Binglin Wu, Jiaxiu Zou, Xianneng Li

分类: cs.CL, cs.AI

发布日期: 2025-12-10

备注: Accepted at CCL 2025


💡 一句话要点

提出一种基于Prompt驱动的大语言模型融合框架,用于细粒度中文仇恨言论检测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 仇恨言论检测 大语言模型 Prompt工程 模型融合 中文自然语言处理

📋 核心要点

  1. 现有系统难以识别中文社交媒体中依赖语境和不断变化的仇恨言论。
  2. 该论文提出Prompt工程、监督微调和LLM融合的三阶段框架来解决该问题。
  3. 在STATE-ToxiCN基准测试中,该框架在细粒度仇恨言论检测方面优于基线方法。

📝 摘要(中文)

中文社交媒体上仇恨言论的扩散带来了紧迫的社会风险,然而传统系统难以解码依赖语境的修辞策略和不断演变的网络俚语。为了弥合这一差距,我们提出了一种新颖的基于LLM的三阶段框架:Prompt工程、监督式微调和LLM融合。首先,设计上下文感知的Prompt来引导LLM提取隐含的仇恨模式。接下来,在监督式微调期间集成特定于任务的特征,以增强领域适应性。最后,融合微调后的LLM可以提高针对分布外情况的鲁棒性。在STATE-ToxiCN基准上的评估验证了该框架的有效性,证明其在检测细粒度仇恨言论方面优于基线方法。

🔬 方法详解

问题定义:该论文旨在解决中文社交媒体上细粒度仇恨言论检测的问题。现有方法难以有效识别依赖上下文的修辞策略和不断涌现的网络俚语,导致检测精度不足。

核心思路:核心思路是利用Prompt驱动的大语言模型(LLM),通过Prompt工程引导LLM理解上下文信息,并结合监督微调和LLM融合来提升模型的鲁棒性和泛化能力。这种方法旨在克服传统方法在处理复杂和动态的仇恨言论时的局限性。

技术框架:该框架包含三个主要阶段:1) Prompt工程:设计上下文感知的Prompt,引导LLM提取隐含的仇恨模式。2) 监督式微调:集成任务特定特征,对LLM进行微调,增强领域适应性。3) LLM融合:融合多个微调后的LLM,提高模型在分布外数据上的鲁棒性。

关键创新:关键创新在于Prompt驱动的LLM融合方法,它结合了Prompt工程的上下文感知能力、监督微调的领域适应性和LLM融合的鲁棒性。与传统的单一模型方法相比,该方法能够更好地处理复杂和动态的仇恨言论。

关键设计:Prompt工程阶段,需要精心设计Prompt模板,以引导LLM关注关键的上下文信息和仇恨模式。监督微调阶段,需要选择合适的损失函数和优化器,并调整学习率等超参数。LLM融合阶段,可以使用加权平均或其他融合策略,以平衡不同模型的预测结果。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

该论文在STATE-ToxiCN基准测试中验证了所提出框架的有效性,实验结果表明,该框架在细粒度仇恨言论检测方面优于基线方法,证明了Prompt驱动的LLM融合方法在处理复杂中文仇恨言论方面的优势。

🎯 应用场景

该研究成果可应用于中文社交媒体平台的仇恨言论检测与过滤,有助于构建更健康的网络环境。该技术还可扩展到其他自然语言处理任务,如情感分析、文本分类等,具有广泛的应用前景。未来,可以进一步研究如何利用该框架来识别和应对新型的仇恨言论。

📄 摘要(原文)

The proliferation of hate speech on Chinese social media poses urgent societal risks, yet traditional systems struggle to decode context-dependent rhetorical strategies and evolving slang. To bridge this gap, we propose a novel three-stage LLM-based framework: Prompt Engineering, Supervised Fine-tuning, and LLM Merging. First, context-aware prompts are designed to guide LLMs in extracting implicit hate patterns. Next, task-specific features are integrated during supervised fine-tuning to enhance domain adaptation. Finally, merging fine-tuned LLMs improves robustness against out-of-distribution cases. Evaluations on the STATE-ToxiCN benchmark validate the framework's effectiveness, demonstrating superior performance over baseline methods in detecting fine-grained hate speech.