Multilingual Safety Alignment Via Sparse Weight Editing
作者: Jiaming Liang, Zhaoxin Wang, Handing Wang
分类: cs.LG
发布日期: 2026-02-28
💡 一句话要点
提出基于稀疏权重编辑的多语言安全对齐方法,解决低资源语言安全防护不足问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言安全对齐 稀疏权重编辑 低资源语言 大型语言模型 安全神经元
📋 核心要点
- 现有方法如多语言SFT和RLHF在跨语言安全对齐方面存在计算成本高、数据依赖性强等问题。
- 该论文提出一种基于稀疏权重编辑的免训练对齐框架,将低资源语言的有害表示映射到高资源语言的安全子空间。
- 实验证明,该方法在显著降低低资源语言攻击成功率的同时,对通用推理能力的影响很小。
📝 摘要(中文)
大型语言模型(LLMs)在不同语言之间表现出显著的安全差异,低资源语言(LRLs)通常会绕过为高资源语言(HRLs)(如英语)建立的安全防护措施。现有的解决方案,如多语言监督微调(SFT)或基于人类反馈的强化学习(RLHF),计算成本高昂且依赖于稀缺的多语言安全数据。本文提出了一种新颖的、无需训练的对齐框架,该框架基于稀疏权重编辑。通过识别安全能力定位于一组稀疏的安全神经元中,我们将跨语言对齐问题表述为一个约束线性变换。我们推导出一个闭式解,以最佳地将LRLs的有害表示映射到HRLs的鲁棒安全子空间,同时通过零空间投影约束来保持通用效用。在8种语言和多个模型系列(Llama-3, Qwen-2.5)上的大量实验表明,我们的方法显著降低了LRLs中的攻击成功率(ASR),且对通用推理能力的影响可忽略不计,所有这些都通过单个数据高效的计算实现。
🔬 方法详解
问题定义:大型语言模型在不同语言上的安全性存在差异,特别是低资源语言往往缺乏有效的安全防护机制。现有的多语言安全对齐方法,如监督微调或强化学习,需要大量的多语言安全数据,并且计算成本很高,难以实际应用。因此,如何高效且数据高效地提升低资源语言的安全性是一个关键问题。
核心思路:该论文的核心思路是利用高资源语言(如英语)中已经学习到的安全知识,通过稀疏权重编辑的方式,将这些知识迁移到低资源语言中。作者假设安全能力集中在一组稀疏的安全神经元中,通过调整这些神经元的权重,可以有效地控制模型的安全性。这种方法避免了从头开始训练模型,从而降低了计算成本和数据需求。
技术框架:该方法主要包含以下几个步骤:1) 识别高资源语言模型中的安全神经元;2) 将低资源语言的有害输入表示映射到高资源语言的安全子空间;3) 通过零空间投影约束,保持模型的通用能力。整个过程无需训练,只需要进行一次数据高效的计算。
关键创新:该论文最重要的创新在于提出了基于稀疏权重编辑的跨语言安全对齐方法。与传统的微调或强化学习方法不同,该方法无需训练,只需要调整少量的权重即可实现安全对齐。此外,该方法还利用了零空间投影约束,保证了在提升安全性的同时,不会对模型的通用能力产生显著影响。
关键设计:该方法的关键设计包括:1) 安全神经元的识别方法(具体方法未知,论文中可能未详细描述);2) 将低资源语言的有害表示映射到高资源语言安全子空间的线性变换的计算方法,这是一个约束优化问题,论文中给出了闭式解;3) 零空间投影约束的具体实现方式,确保在进行权重编辑时,不会影响模型的通用能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在8种语言和多个模型(Llama-3, Qwen-2.5)上显著降低了低资源语言的攻击成功率(ASR),同时对模型的通用推理能力几乎没有影响。该方法仅需单次数据高效计算即可实现,无需耗时的训练过程,具有很高的实用价值。
🎯 应用场景
该研究成果可应用于提升多语言大型语言模型在低资源语言环境下的安全性,减少恶意攻击和有害内容生成。该方法具有数据高效和计算成本低的优点,有助于快速部署和维护多语言安全防护系统,降低社会风险,并促进语言技术的公平发展。
📄 摘要(原文)
Large Language Models (LLMs) exhibit significant safety disparities across languages, with low-resource languages (LRLs) often bypassing safety guardrails established for high-resource languages (HRLs) like English. Existing solutions, such as multilingual supervised fine-tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), are computationally expensive and dependent on scarce multilingual safety data. In this work, we propose a novel, training-free alignment framework based on Sparse Weight Editing. Identifying that safety capabilities are localized within a sparse set of safety neurons, we formulate the cross-lingual alignment problem as a constrained linear transformation. We derive a closed-form solution to optimally map the harmful representations of LRLs to the robust safety subspaces of HRLs, while preserving general utility via a null-space projection constraint. Extensive experiments across 8 languages and multiple model families (Llama-3, Qwen-2.5) demonstrate that our method substantially reduces Attack Success Rate (ASR) in LRLs with negligible impact on general reasoning capabilities, all achieved with a single, data-efficient calculation.