Multilingual Safety Alignment Via Sparse Weight Editing
作者: Jiaming Liang, Zhaoxin Wang, Handing Wang
分类: cs.LG
发布日期: 2026-02-26
💡 一句话要点
提出稀疏权重编辑方法以解决多语言安全对齐问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多语言对齐 安全性 稀疏权重编辑 低资源语言 大型语言模型
📋 核心要点
- 现有方法在多语言安全性对齐上存在显著不足,尤其是低资源语言常常缺乏有效的安全防护。
- 本文提出了一种基于稀疏权重编辑的无训练对齐框架,通过识别安全神经元实现跨语言对齐。
- 实验结果显示,该方法在8种语言上显著降低了攻击成功率(ASR),对推理能力影响极小。
📝 摘要(中文)
大型语言模型(LLMs)在不同语言间存在显著的安全性差异,低资源语言(LRLs)往往绕过为高资源语言(HRLs)如英语建立的安全防护。现有的解决方案如多语言监督微调(SFT)或基于人类反馈的强化学习(RLHF)计算成本高且依赖稀缺的多语言安全数据。本文提出了一种基于稀疏权重编辑的新型无训练对齐框架,识别出安全能力局限于一小部分安全神经元,将跨语言对齐问题形式化为约束线性变换。我们推导出闭式解,能够在保持一般效用的同时,最优地将LRLs的有害表示映射到HRLs的安全子空间。通过在8种语言和多个模型家族(Llama-3, Qwen-2.5)上的广泛实验,证明了该方法显著降低了LRLs的攻击成功率(ASR),且对一般推理能力影响微乎其微,所有这些均通过一次数据高效的计算实现。
🔬 方法详解
问题定义:本文旨在解决大型语言模型在多语言环境下的安全性对齐问题,现有方法如多语言微调和RLHF计算成本高且依赖稀缺数据,难以有效应用于低资源语言。
核心思路:论文的核心思路是通过稀疏权重编辑技术,识别出安全能力集中在少数安全神经元中,将低资源语言的有害表示映射到高资源语言的安全子空间。
技术框架:整体框架包括三个主要模块:1) 安全神经元识别;2) 约束线性变换的形式化;3) 闭式解的推导与应用。通过这些模块实现跨语言的安全对齐。
关键创新:最重要的技术创新在于将跨语言对齐问题转化为约束线性变换,并推导出闭式解,显著提高了对齐效率和准确性。与现有方法相比,该方法不需要额外的训练过程。
关键设计:在设计中,采用了稀疏权重编辑技术,确保了安全神经元的有效识别,并通过null-space投影约束保持一般推理能力,确保了模型的整体性能不受影响。实验中使用的损失函数和参数设置经过精心调整,以实现最佳效果。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提方法在8种语言上显著降低了攻击成功率(ASR),在低资源语言中ASR降低幅度达到显著水平,而对一般推理能力的影响几乎可以忽略不计,展示了方法的有效性和高效性。
🎯 应用场景
该研究的潜在应用领域包括多语言聊天机器人、跨语言内容审核系统以及全球化产品的安全性保障。通过提升低资源语言的安全性,该方法能够有效降低语言模型在实际应用中的风险,具有重要的社会价值和实际影响。
📄 摘要(原文)
Large Language Models (LLMs) exhibit significant safety disparities across languages, with low-resource languages (LRLs) often bypassing safety guardrails established for high-resource languages (HRLs) like English. Existing solutions, such as multilingual supervised fine-tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), are computationally expensive and dependent on scarce multilingual safety data. In this work, we propose a novel, training-free alignment framework based on Sparse Weight Editing. Identifying that safety capabilities are localized within a sparse set of safety neurons, we formulate the cross-lingual alignment problem as a constrained linear transformation. We derive a closed-form solution to optimally map the harmful representations of LRLs to the robust safety subspaces of HRLs, while preserving general utility via a null-space projection constraint. Extensive experiments across 8 languages and multiple model families (Llama-3, Qwen-2.5) demonstrate that our method substantially reduces Attack Success Rate (ASR) in LRLs with negligible impact on general reasoning capabilities, all achieved with a single, data-efficient calculation.