PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation

📄 arXiv: 2605.05159v1 📥 PDF

作者: Srikar Kashyap Pulipaka

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-06


💡 一句话要点

提出基于集成Gemma模型和合成数据增强的多语言极化检测方法,在SemEval-2026任务中取得优异成绩。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言极化检测 Gemma模型 LoRA微调 合成数据增强 GPT-4o-mini 模型集成 自然语言处理

📋 核心要点

  1. 现有方法在多语言极化检测中泛化能力不足,难以适应不同语言的细微差别。
  2. 利用Gemma模型和LoRA进行微调,并结合GPT-4o-mini生成合成数据进行增强,提升模型性能。
  3. 通过阈值调整和模型集成,最终系统在SemEval-2026任务中取得了优异的成绩,验证了方法的有效性。

📝 摘要(中文)

本文介绍了我们为SemEval-2026任务9:多语言极化检测设计的系统,这是一个涵盖22种语言的二元分类任务。我们的方法针对每种语言,使用低秩适应(LoRA)微调独立的Gemma-3模型(12B和27B参数),并使用大型语言模型(LLM)生成的合成数据进行增强。我们采用三种合成数据策略(直接生成、释义和对比对创建),使用GPT-4o-mini,并采用包括基于嵌入的去重在内的多阶段质量过滤流程。我们发现,在开发集上对每种语言进行阈值调整,无需重新训练即可产生2%到4%的F1提升。我们还使用12B和27B模型预测的加权集成,并进行每种语言的策略选择。最终系统在所有22种语言上实现了0.811的平均宏F1值,在参赛队伍中排名第二,并在3种语言中获得第一名,在8种语言中排名前三。我们还发现,在开发集上表现出色的替代架构(XLM-RoBERTa、Qwen3)在测试集上出现了30%到50%的F1下降,突出了泛化的重要性。

🔬 方法详解

问题定义:论文旨在解决多语言极化检测问题,即判断一段文本在特定语言中是否带有极化倾向。现有方法在跨语言泛化能力上存在不足,难以有效处理不同语言的复杂性和细微差别,导致在实际应用中性能下降。

核心思路:论文的核心思路是利用预训练的大型语言模型(Gemma)的强大表示能力,并结合合成数据增强技术,提升模型在多语言环境下的泛化能力。通过针对每种语言进行微调和优化,使模型更好地适应特定语言的特征。

技术框架:整体框架包括以下几个主要阶段:1) 数据准备:收集和整理多语言极化检测数据集。2) 模型微调:使用LoRA技术对Gemma-3模型(12B和27B参数)进行微调,针对每种语言训练独立的模型。3) 合成数据增强:使用GPT-4o-mini生成合成数据,包括直接生成、释义和对比对创建三种策略。4) 质量过滤:对合成数据进行多阶段质量过滤,包括基于嵌入的去重。5) 阈值调整:在开发集上对每种语言进行阈值调整,优化模型性能。6) 模型集成:使用加权集成方法,将12B和27B模型的预测结果进行融合,并进行每种语言的策略选择。

关键创新:论文的关键创新在于:1) 针对每种语言进行独立的模型微调和优化,更好地适应特定语言的特征。2) 采用多种合成数据增强策略,并进行多阶段质量过滤,有效提升模型的泛化能力。3) 通过阈值调整和模型集成,进一步优化模型性能,最终在SemEval-2026任务中取得了优异的成绩。

关键设计:在合成数据生成方面,使用了GPT-4o-mini模型,并采用了三种不同的生成策略:直接生成、释义和对比对创建。为了保证合成数据的质量,采用了多阶段质量过滤流程,包括基于嵌入的去重。在模型集成方面,使用了加权集成方法,并根据每种语言的特点进行策略选择。具体权重参数未知。

🖼️ 关键图片

fig_0

📊 实验亮点

该系统在SemEval-2026任务9中取得了平均宏F1值为0.811的成绩,排名第二。在3种语言中获得第一名,在8种语言中排名前三。通过对开发集进行阈值调整,无需重新训练即可获得2%到4%的F1提升。实验还表明,Gemma模型相比XLM-RoBERTa和Qwen3等替代架构,具有更好的泛化能力。

🎯 应用场景

该研究成果可应用于舆情分析、情感识别、虚假信息检测等领域,尤其是在多语言环境下。通过提升模型在不同语言中的极化检测能力,可以更准确地了解不同国家和地区的用户观点和情绪,为政府、企业和研究机构提供有价值的参考信息。未来,该技术有望应用于跨文化交流、国际关系研究等更广泛的领域。

📄 摘要(原文)

We present our system for SemEval-2026 Task 9: Multilingual Polarization Detection, a binary classification task spanning 22 languages. Our approach fine-tunes separate Gemma~3 models (12B and 27B parameters) per language using Low-Rank Adaptation (LoRA), augmented with synthetic data generated by a large language model (LLM). We employ three synthetic data strategies (direct generation, paraphrasing, and contrastive pair creation) using GPT-4o-mini, with a multi-stage quality filtering pipeline including embedding-based deduplication. We find that per-language threshold tuning on the development set yields 2 to 4\% F1 improvements without retraining. We also use weighted ensembles of 12B and 27B model predictions with per-language strategy selection. Our final system achieves a mean macro-F1 of 0.811 across all 22 languages, ranking 2nd overall of the participating teams, with 1st place finishes in 3 languages and top-3 in 8 languages. We also find that alternative architectures (XLM-RoBERTa, Qwen3) that showed strong development set performance suffered 30 to 50\% F1 drops on the test set, highlighting the importance of generalization.