PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation

作者: Srikar Kashyap Pulipaka

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-06

💡 一句话要点

提出基于集成Gemma模型和合成数据增强的多语言极化检测方法，在SemEval-2026任务中取得优异成绩。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言极化检测 Gemma模型 LoRA微调 合成数据增强 GPT-4o-mini 模型集成 自然语言处理

📋 核心要点

现有方法在多语言极化检测中泛化能力不足，难以适应不同语言的细微差别。
利用Gemma模型和LoRA进行微调，并结合GPT-4o-mini生成合成数据进行增强，提升模型性能。
通过阈值调整和模型集成，最终系统在SemEval-2026任务中取得了优异的成绩，验证了方法的有效性。

📝 摘要（中文）

本文介绍了我们为SemEval-2026任务9：多语言极化检测设计的系统，这是一个涵盖22种语言的二元分类任务。我们的方法针对每种语言，使用低秩适应(LoRA)微调独立的Gemma-3模型（12B和27B参数），并使用大型语言模型(LLM)生成的合成数据进行增强。我们采用三种合成数据策略（直接生成、释义和对比对创建），使用GPT-4o-mini，并采用包括基于嵌入的去重在内的多阶段质量过滤流程。我们发现，在开发集上对每种语言进行阈值调整，无需重新训练即可产生2%到4%的F1提升。我们还使用12B和27B模型预测的加权集成，并进行每种语言的策略选择。最终系统在所有22种语言上实现了0.811的平均宏F1值，在参赛队伍中排名第二，并在3种语言中获得第一名，在8种语言中排名前三。我们还发现，在开发集上表现出色的替代架构（XLM-RoBERTa、Qwen3）在测试集上出现了30%到50%的F1下降，突出了泛化的重要性。

🔬 方法详解

问题定义：论文旨在解决多语言极化检测问题，即判断一段文本在特定语言中是否带有极化倾向。现有方法在跨语言泛化能力上存在不足，难以有效处理不同语言的复杂性和细微差别，导致在实际应用中性能下降。

核心思路：论文的核心思路是利用预训练的大型语言模型（Gemma）的强大表示能力，并结合合成数据增强技术，提升模型在多语言环境下的泛化能力。通过针对每种语言进行微调和优化，使模型更好地适应特定语言的特征。

技术框架：整体框架包括以下几个主要阶段：1) 数据准备：收集和整理多语言极化检测数据集。2) 模型微调：使用LoRA技术对Gemma-3模型（12B和27B参数）进行微调，针对每种语言训练独立的模型。3) 合成数据增强：使用GPT-4o-mini生成合成数据，包括直接生成、释义和对比对创建三种策略。4) 质量过滤：对合成数据进行多阶段质量过滤，包括基于嵌入的去重。5) 阈值调整：在开发集上对每种语言进行阈值调整，优化模型性能。6) 模型集成：使用加权集成方法，将12B和27B模型的预测结果进行融合，并进行每种语言的策略选择。

关键创新：论文的关键创新在于：1) 针对每种语言进行独立的模型微调和优化，更好地适应特定语言的特征。2) 采用多种合成数据增强策略，并进行多阶段质量过滤，有效提升模型的泛化能力。3) 通过阈值调整和模型集成，进一步优化模型性能，最终在SemEval-2026任务中取得了优异的成绩。

关键设计：在合成数据生成方面，使用了GPT-4o-mini模型，并采用了三种不同的生成策略：直接生成、释义和对比对创建。为了保证合成数据的质量，采用了多阶段质量过滤流程，包括基于嵌入的去重。在模型集成方面，使用了加权集成方法，并根据每种语言的特点进行策略选择。具体权重参数未知。

🖼️ 关键图片

📊 实验亮点

该系统在SemEval-2026任务9中取得了平均宏F1值为0.811的成绩，排名第二。在3种语言中获得第一名，在8种语言中排名前三。通过对开发集进行阈值调整，无需重新训练即可获得2%到4%的F1提升。实验还表明，Gemma模型相比XLM-RoBERTa和Qwen3等替代架构，具有更好的泛化能力。

🎯 应用场景

该研究成果可应用于舆情分析、情感识别、虚假信息检测等领域，尤其是在多语言环境下。通过提升模型在不同语言中的极化检测能力，可以更准确地了解不同国家和地区的用户观点和情绪，为政府、企业和研究机构提供有价值的参考信息。未来，该技术有望应用于跨文化交流、国际关系研究等更广泛的领域。

📄 摘要（原文）

We present our system for SemEval-2026 Task 9: Multilingual Polarization Detection, a binary classification task spanning 22 languages. Our approach fine-tunes separate Gemma~3 models (12B and 27B parameters) per language using Low-Rank Adaptation (LoRA), augmented with synthetic data generated by a large language model (LLM). We employ three synthetic data strategies (direct generation, paraphrasing, and contrastive pair creation) using GPT-4o-mini, with a multi-stage quality filtering pipeline including embedding-based deduplication. We find that per-language threshold tuning on the development set yields 2 to 4\% F1 improvements without retraining. We also use weighted ensembles of 12B and 27B model predictions with per-language strategy selection. Our final system achieves a mean macro-F1 of 0.811 across all 22 languages, ranking 2nd overall of the participating teams, with 1st place finishes in 3 languages and top-3 in 8 languages. We also find that alternative architectures (XLM-RoBERTa, Qwen3) that showed strong development set performance suffered 30 to 50\% F1 drops on the test set, highlighting the importance of generalization.

PSK at SemEval-2026 Task 9: Multilingual Polarization Detection Using Ensemble Gemma Models with Synthetic Data Augmentation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理