Continual Learning with Multilingual Foundation Model

作者: Barathi Ganesh HB, Michal Ptaszynski, Rene Melendez, Juuso Eronen

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-13

备注: Final Workshop of the 9th evaluation campaign EVALITA 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出多阶段框架，利用多语言基础模型检测社交媒体中LGBTQ+相关侮辱性词语的赎回用法。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言处理 自然语言处理 社交媒体分析 赎回性词语检测 迁移学习

📋 核心要点

现有方法难以有效识别多语言社交媒体中LGBTQ+相关侮辱性词语的赎回性用法，面临数据稀缺、类别不平衡和跨语言差异等挑战。
该论文提出一种多阶段框架，结合数据增强、迁移学习、掩码语言建模和语言特定阈值优化，以提升赎回性词语识别的准确性。
实验结果表明，该框架通过数据增强和阈值优化，在F1分数上取得了显著提升，无需重新训练模型即可获得2-5%的绝对F1改进。

📝 摘要（中文）

本文提出了一种多阶段框架，用于检测多语言社交媒体讨论中被赎回的侮辱性词语。该框架旨在识别英语、西班牙语和意大利语推文中与LGBTQ+相关的侮辱性词语的赎回性用法与非赎回性用法。它解决了三个相互关联的方法论挑战，如数据稀缺、类别不平衡以及情感表达的跨语言差异。该框架集成了通过交叉验证进行的数据驱动模型选择、通过回译进行语义保留增强、通过动态epoch级别欠采样进行归纳迁移学习，以及通过掩码语言建模进行领域特定知识注入。系统地评估了八个多语言嵌入模型，并根据宏平均F1分数选择XLM-RoBERTa作为基础模型。通过GPT-4o-mini回译到其他语言的数据增强有效地将训练语料库增加了两倍，同时保留了语义内容和类别分布比率。该框架为评估目的生成了四个最终运行，其中RUN 1是具有增强和欠采样的归纳迁移学习，RUN 2是具有掩码语言建模预训练，RUN 3和RUN 4是通过ROC分析优化的特定于语言的决策阈值细化的先前预测。特定于语言的阈值细化表明，最佳决策边界在不同语言之间差异很大。这反映了模型置信度分数的分布差异以及赎回语言用法的语言变异。基于阈值的优化在不需要模型重新训练的情况下产生了2-5%的绝对F1改进。该方法是完全可重现的，所有代码和实验设置可在https://github.com/rbg-research/MultiPRIDE-Evalita-2026获得。

🔬 方法详解

问题定义：该论文旨在解决多语言社交媒体文本中，自动识别LGBTQ+相关侮辱性词语的“赎回性使用”与“非赎回性使用”的问题。现有方法在处理此类问题时，面临数据稀缺（尤其是不同语言的数据）、类别不平衡（赎回性使用通常远少于非赎回性使用）以及跨语言情感表达差异等挑战。这些挑战导致模型泛化能力不足，难以准确区分不同语境下的词语含义。

核心思路：论文的核心思路是利用多语言预训练模型（如XLM-RoBERTa）的跨语言知识迁移能力，结合数据增强、领域知识注入和语言特定阈值优化，来提升模型在低资源、类别不平衡场景下的性能。通过数据增强增加训练数据，缓解数据稀缺问题；通过掩码语言建模注入领域知识，使模型更好地理解特定语境下的词语含义；通过语言特定阈值优化，解决跨语言情感表达差异带来的影响。

技术框架：该框架包含以下几个主要阶段：1) 数据驱动的模型选择：通过交叉验证选择最佳的多语言嵌入模型。2) 语义保留的数据增强：使用GPT-4o-mini进行回译，生成更多训练数据，同时保持语义内容和类别分布。3) 归纳迁移学习：使用动态epoch级别欠采样处理类别不平衡问题。4) 领域特定知识注入：通过掩码语言建模，使模型学习特定领域的知识。5) 语言特定阈值优化：通过ROC分析优化语言特定的决策阈值。

关键创新：该论文的关键创新在于结合了多种技术手段，形成一个完整的多阶段框架，以解决多语言环境下的赎回性词语识别问题。特别是在数据增强方面，使用GPT-4o-mini进行回译，有效地增加了训练数据，同时保证了语义的准确性。此外，语言特定阈值优化也是一个重要的创新点，它能够根据不同语言的特点，调整模型的决策边界，从而提高模型的性能。

关键设计：在数据增强方面，使用了GPT-4o-mini进行回译，将原始数据翻译成其他语言，然后再翻译回原始语言，从而生成新的训练数据。在训练过程中，使用了动态epoch级别欠采样，根据每个epoch的类别分布，动态调整采样比例，以缓解类别不平衡问题。在语言特定阈值优化方面，使用了ROC分析，根据不同语言的特点，选择最佳的决策阈值。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该框架在多语言环境下能够有效识别赎回性词语。通过数据增强，训练数据量增加了两倍，同时保持了语义内容和类别分布。语言特定阈值优化在不需要模型重新训练的情况下，带来了2-5%的绝对F1分数提升。XLM-RoBERTa被选为最佳基础模型。

🎯 应用场景

该研究成果可应用于社交媒体内容审核、舆情分析、仇恨言论检测等领域。通过自动识别赎回性用法的侮辱性词语，可以更准确地判断用户的情感倾向和言论意图，避免误判和过度审查。此外，该方法还可以扩展到其他语言和领域，具有广泛的应用前景。

📄 摘要（原文）

This paper presents a multi-stage framework for detecting reclaimed slurs in multilingual social media discourse. It addresses the challenge of identifying reclamatory versus non-reclamatory usage of LGBTQ+-related slurs across English, Spanish, and Italian tweets. The framework handles three intertwined methodological challenges like data scarcity, class imbalance, and cross-linguistic variation in sentiment expression. It integrates data-driven model selection via cross-validation, semantic-preserving augmentation through back-translation, inductive transfer learning with dynamic epoch-level undersampling, and domain-specific knowledge injection via masked language modeling. Eight multilingual embedding models were evaluated systematically, with XLM-RoBERTa selected as the foundation model based on macro-averaged F1 score. Data augmentation via GPT-4o-mini back-translation to alternate languages effectively tripled the training corpus while preserving semantic content and class distribution ratios. The framework produces four final runs for the evaluation purposes where RUN 1 is inductive transfer learning with augmentation and undersampling, RUN 2 with masked language modeling pre-training, RUN 3 and RUN 4 are previous predictions refined via language-specific decision thresholds optimized via ROC analysis. Language-specific threshold refinement reveals that optimal decision boundaries vary significantly across languages. This reflects distributional differences in model confidence scores and linguistic variation in reclamatory language usage. The threshold-based optimization yields 2-5% absolute F1 improvement without requiring model retraining. The methodology is fully reproducible, with all code and experimental setup available at https://github.com/rbg-research/MultiPRIDE-Evalita-2026.

Continual Learning with Multilingual Foundation Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理