Continual Learning with Multilingual Foundation Model
作者: Barathi Ganesh HB, Michal Ptaszynski, Rene Melendez, Juuso Eronen
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-13
备注: Final Workshop of the 9th evaluation campaign EVALITA 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出多阶段框架,利用多语言基础模型检测社交媒体中LGBTQ+相关侮辱性词语的赎回用法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言处理 自然语言处理 社交媒体分析 赎回性词语检测 迁移学习
📋 核心要点
- 现有方法难以有效识别多语言社交媒体中LGBTQ+相关侮辱性词语的赎回性用法,面临数据稀缺、类别不平衡和跨语言差异等挑战。
- 该论文提出一种多阶段框架,结合数据增强、迁移学习、掩码语言建模和语言特定阈值优化,以提升赎回性词语识别的准确性。
- 实验结果表明,该框架通过数据增强和阈值优化,在F1分数上取得了显著提升,无需重新训练模型即可获得2-5%的绝对F1改进。
📝 摘要(中文)
本文提出了一种多阶段框架,用于检测多语言社交媒体讨论中被赎回的侮辱性词语。该框架旨在识别英语、西班牙语和意大利语推文中与LGBTQ+相关的侮辱性词语的赎回性用法与非赎回性用法。它解决了三个相互关联的方法论挑战,如数据稀缺、类别不平衡以及情感表达的跨语言差异。该框架集成了通过交叉验证进行的数据驱动模型选择、通过回译进行语义保留增强、通过动态epoch级别欠采样进行归纳迁移学习,以及通过掩码语言建模进行领域特定知识注入。系统地评估了八个多语言嵌入模型,并根据宏平均F1分数选择XLM-RoBERTa作为基础模型。通过GPT-4o-mini回译到其他语言的数据增强有效地将训练语料库增加了两倍,同时保留了语义内容和类别分布比率。该框架为评估目的生成了四个最终运行,其中RUN 1是具有增强和欠采样的归纳迁移学习,RUN 2是具有掩码语言建模预训练,RUN 3和RUN 4是通过ROC分析优化的特定于语言的决策阈值细化的先前预测。特定于语言的阈值细化表明,最佳决策边界在不同语言之间差异很大。这反映了模型置信度分数的分布差异以及赎回语言用法的语言变异。基于阈值的优化在不需要模型重新训练的情况下产生了2-5%的绝对F1改进。该方法是完全可重现的,所有代码和实验设置可在https://github.com/rbg-research/MultiPRIDE-Evalita-2026获得。
🔬 方法详解
问题定义:该论文旨在解决多语言社交媒体文本中,自动识别LGBTQ+相关侮辱性词语的“赎回性使用”与“非赎回性使用”的问题。现有方法在处理此类问题时,面临数据稀缺(尤其是不同语言的数据)、类别不平衡(赎回性使用通常远少于非赎回性使用)以及跨语言情感表达差异等挑战。这些挑战导致模型泛化能力不足,难以准确区分不同语境下的词语含义。
核心思路:论文的核心思路是利用多语言预训练模型(如XLM-RoBERTa)的跨语言知识迁移能力,结合数据增强、领域知识注入和语言特定阈值优化,来提升模型在低资源、类别不平衡场景下的性能。通过数据增强增加训练数据,缓解数据稀缺问题;通过掩码语言建模注入领域知识,使模型更好地理解特定语境下的词语含义;通过语言特定阈值优化,解决跨语言情感表达差异带来的影响。
技术框架:该框架包含以下几个主要阶段:1) 数据驱动的模型选择:通过交叉验证选择最佳的多语言嵌入模型。2) 语义保留的数据增强:使用GPT-4o-mini进行回译,生成更多训练数据,同时保持语义内容和类别分布。3) 归纳迁移学习:使用动态epoch级别欠采样处理类别不平衡问题。4) 领域特定知识注入:通过掩码语言建模,使模型学习特定领域的知识。5) 语言特定阈值优化:通过ROC分析优化语言特定的决策阈值。
关键创新:该论文的关键创新在于结合了多种技术手段,形成一个完整的多阶段框架,以解决多语言环境下的赎回性词语识别问题。特别是在数据增强方面,使用GPT-4o-mini进行回译,有效地增加了训练数据,同时保证了语义的准确性。此外,语言特定阈值优化也是一个重要的创新点,它能够根据不同语言的特点,调整模型的决策边界,从而提高模型的性能。
关键设计:在数据增强方面,使用了GPT-4o-mini进行回译,将原始数据翻译成其他语言,然后再翻译回原始语言,从而生成新的训练数据。在训练过程中,使用了动态epoch级别欠采样,根据每个epoch的类别分布,动态调整采样比例,以缓解类别不平衡问题。在语言特定阈值优化方面,使用了ROC分析,根据不同语言的特点,选择最佳的决策阈值。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该框架在多语言环境下能够有效识别赎回性词语。通过数据增强,训练数据量增加了两倍,同时保持了语义内容和类别分布。语言特定阈值优化在不需要模型重新训练的情况下,带来了2-5%的绝对F1分数提升。XLM-RoBERTa被选为最佳基础模型。
🎯 应用场景
该研究成果可应用于社交媒体内容审核、舆情分析、仇恨言论检测等领域。通过自动识别赎回性用法的侮辱性词语,可以更准确地判断用户的情感倾向和言论意图,避免误判和过度审查。此外,该方法还可以扩展到其他语言和领域,具有广泛的应用前景。
📄 摘要(原文)
This paper presents a multi-stage framework for detecting reclaimed slurs in multilingual social media discourse. It addresses the challenge of identifying reclamatory versus non-reclamatory usage of LGBTQ+-related slurs across English, Spanish, and Italian tweets. The framework handles three intertwined methodological challenges like data scarcity, class imbalance, and cross-linguistic variation in sentiment expression. It integrates data-driven model selection via cross-validation, semantic-preserving augmentation through back-translation, inductive transfer learning with dynamic epoch-level undersampling, and domain-specific knowledge injection via masked language modeling. Eight multilingual embedding models were evaluated systematically, with XLM-RoBERTa selected as the foundation model based on macro-averaged F1 score. Data augmentation via GPT-4o-mini back-translation to alternate languages effectively tripled the training corpus while preserving semantic content and class distribution ratios. The framework produces four final runs for the evaluation purposes where RUN 1 is inductive transfer learning with augmentation and undersampling, RUN 2 with masked language modeling pre-training, RUN 3 and RUN 4 are previous predictions refined via language-specific decision thresholds optimized via ROC analysis. Language-specific threshold refinement reveals that optimal decision boundaries vary significantly across languages. This reflects distributional differences in model confidence scores and linguistic variation in reclamatory language usage. The threshold-based optimization yields 2-5% absolute F1 improvement without requiring model retraining. The methodology is fully reproducible, with all code and experimental setup available at https://github.com/rbg-research/MultiPRIDE-Evalita-2026.