Multilingual Amnesia: On the Transferability of Unlearning in Multilingual LLMs
作者: Alireza Dehghanpour Farashah, Aditi Khandelwal, Marylou Fauchard, Zhuan Shi, Negar Rostamzadeh, Golnoosh Farnadi
分类: cs.CL, cs.LG
发布日期: 2026-01-09
💡 一句话要点
研究多语言LLM中的遗忘学习,揭示跨语言知识迁移对遗忘的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言LLM 遗忘学习 跨语言迁移 知识擦除 句法相似性
📋 核心要点
- 现有机器遗忘学习研究主要集中于单语环境,忽略了多语言LLM中跨语言知识迁移带来的复杂性。
- 本文通过数据遗忘和概念遗忘两种设置,研究多语言LLM中的遗忘学习,关注跨语言迁移效应。
- 实验结果表明,高资源语言的遗忘学习更稳定,句法相似性是跨语言遗忘行为的关键预测指标。
📝 摘要(中文)
随着多语言大型语言模型日益普及,确保其在不同语言环境下的安全性和公平性面临着独特的挑战。现有的机器遗忘学习研究主要集中在单语环境(通常是英语),而多语言环境由于跨语言知识迁移以及预训练和微调数据中嵌入的偏差,引入了额外的复杂性。本文研究了Aya-Expanse 8B模型在两种设置下的多语言遗忘学习:(1) 数据遗忘和 (2) 概念遗忘。通过翻译,我们将事实知识和刻板印象的基准扩展到十种语言:英语、法语、阿拉伯语、日语、俄语、波斯语、韩语、印地语、希伯来语和印度尼西亚语。这些语言跨越五个语系和广泛的资源水平。实验表明,在高资源语言中的遗忘学习通常更稳定,并且在类型学相关的语言之间观察到不对称的迁移效应。此外,对语言距离的分析表明,句法相似性是跨语言遗忘行为的最强预测指标。
🔬 方法详解
问题定义:论文旨在研究多语言大型语言模型(MLLM)中的遗忘学习问题。现有的遗忘学习方法主要集中在单语环境中,忽略了MLLM中固有的跨语言知识迁移和偏差。这导致在一种语言中进行的遗忘操作可能会影响模型在其他语言中的表现,从而带来安全性和公平性问题。现有方法缺乏对跨语言遗忘行为的深入理解和有效控制机制。
核心思路:论文的核心思路是通过实验分析不同语言之间的遗忘迁移效应,并探究影响这种迁移效应的关键因素。具体来说,论文通过在多种语言上构建遗忘学习基准,并分析不同语言之间的遗忘性能差异,从而揭示跨语言知识迁移对遗忘学习的影响。此外,论文还研究了语言之间的句法相似性等因素与遗忘迁移效应之间的关系,旨在为设计更有效的多语言遗忘学习方法提供指导。
技术框架:论文的技术框架主要包括以下几个部分:1) 选择Aya-Expanse 8B模型作为研究对象;2) 构建多语言遗忘学习基准,包括事实知识和刻板印象两个方面,覆盖十种语言;3) 设计数据遗忘和概念遗忘两种实验设置;4) 分析不同语言之间的遗忘性能差异,以及语言之间的句法相似性等因素与遗忘迁移效应之间的关系。
关键创新:论文的关键创新在于:1) 首次系统地研究了多语言LLM中的遗忘学习问题,填补了该领域的研究空白;2) 构建了一个多语言遗忘学习基准,为后续研究提供了便利;3) 揭示了跨语言知识迁移对遗忘学习的影响,并发现了句法相似性是跨语言遗忘行为的关键预测指标。与现有方法相比,本文更关注多语言环境下的遗忘学习,并深入探究了跨语言知识迁移的影响。
关键设计:论文的关键设计包括:1) 选择Aya-Expanse 8B模型,因为它是一个开源的多语言LLM,方便研究人员进行实验和分析;2) 构建多语言遗忘学习基准时,采用了翻译的方法,将现有的单语基准扩展到多种语言;3) 在数据遗忘实验中,采用了微调的方法来遗忘特定数据;4) 在概念遗忘实验中,采用了对抗训练的方法来遗忘特定概念;5) 在分析语言之间的句法相似性时,采用了语言学距离的概念。
📊 实验亮点
实验结果表明,在高资源语言中进行遗忘学习通常更稳定。同时,研究发现类型学相关的语言之间存在不对称的迁移效应,即一种语言的遗忘操作可能对另一种语言产生更大的影响。此外,通过分析语言距离,研究发现句法相似性是跨语言遗忘行为的最强预测指标,表明语言结构的相似性在知识迁移中起着重要作用。
🎯 应用场景
该研究成果可应用于提升多语言大型语言模型的安全性和公平性,例如,在模型中消除特定语言或文化群体的偏见,防止模型泄露敏感信息。此外,该研究还可以帮助开发更有效的多语言遗忘学习方法,从而更好地控制模型中的知识,并适应不断变化的需求。未来,该研究可以扩展到更多语言和任务,并探索更复杂的跨语言知识迁移机制。
📄 摘要(原文)
As multilingual large language models become more widely used, ensuring their safety and fairness across diverse linguistic contexts presents unique challenges. While existing research on machine unlearning has primarily focused on monolingual settings, typically English, multilingual environments introduce additional complexities due to cross-lingual knowledge transfer and biases embedded in both pretraining and fine-tuning data. In this work, we study multilingual unlearning using the Aya-Expanse 8B model under two settings: (1) data unlearning and (2) concept unlearning. We extend benchmarks for factual knowledge and stereotypes to ten languages through translation: English, French, Arabic, Japanese, Russian, Farsi, Korean, Hindi, Hebrew, and Indonesian. These languages span five language families and a wide range of resource levels. Our experiments show that unlearning in high-resource languages is generally more stable, with asymmetric transfer effects observed between typologically related languages. Furthermore, our analysis of linguistic distances indicates that syntactic similarity is the strongest predictor of cross-lingual unlearning behavior.