Multilingual Safety Alignment Via Sparse Weight Editing

作者: Jiaming Liang, Zhaoxin Wang, Handing Wang

分类: cs.LG

发布日期: 2026-02-26

💡 一句话要点

提出稀疏权重编辑方法以解决多语言安全对齐问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多语言对齐 安全性 稀疏权重编辑 低资源语言 大型语言模型

📋 核心要点

现有方法在多语言安全性对齐上存在显著不足，尤其是低资源语言常常缺乏有效的安全防护。
本文提出了一种基于稀疏权重编辑的无训练对齐框架，通过识别安全神经元实现跨语言对齐。
实验结果显示，该方法在8种语言上显著降低了攻击成功率（ASR），对推理能力影响极小。

📝 摘要（中文）

大型语言模型（LLMs）在不同语言间存在显著的安全性差异，低资源语言（LRLs）往往绕过为高资源语言（HRLs）如英语建立的安全防护。现有的解决方案如多语言监督微调（SFT）或基于人类反馈的强化学习（RLHF）计算成本高且依赖稀缺的多语言安全数据。本文提出了一种基于稀疏权重编辑的新型无训练对齐框架，识别出安全能力局限于一小部分安全神经元，将跨语言对齐问题形式化为约束线性变换。我们推导出闭式解，能够在保持一般效用的同时，最优地将LRLs的有害表示映射到HRLs的安全子空间。通过在8种语言和多个模型家族（Llama-3, Qwen-2.5）上的广泛实验，证明了该方法显著降低了LRLs的攻击成功率（ASR），且对一般推理能力影响微乎其微，所有这些均通过一次数据高效的计算实现。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在多语言环境下的安全性对齐问题，现有方法如多语言微调和RLHF计算成本高且依赖稀缺数据，难以有效应用于低资源语言。

核心思路：论文的核心思路是通过稀疏权重编辑技术，识别出安全能力集中在少数安全神经元中，将低资源语言的有害表示映射到高资源语言的安全子空间。

技术框架：整体框架包括三个主要模块：1) 安全神经元识别；2) 约束线性变换的形式化；3) 闭式解的推导与应用。通过这些模块实现跨语言的安全对齐。

关键创新：最重要的技术创新在于将跨语言对齐问题转化为约束线性变换，并推导出闭式解，显著提高了对齐效率和准确性。与现有方法相比，该方法不需要额外的训练过程。

关键设计：在设计中，采用了稀疏权重编辑技术，确保了安全神经元的有效识别，并通过null-space投影约束保持一般推理能力，确保了模型的整体性能不受影响。实验中使用的损失函数和参数设置经过精心调整，以实现最佳效果。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提方法在8种语言上显著降低了攻击成功率（ASR），在低资源语言中ASR降低幅度达到显著水平，而对一般推理能力的影响几乎可以忽略不计，展示了方法的有效性和高效性。

🎯 应用场景

该研究的潜在应用领域包括多语言聊天机器人、跨语言内容审核系统以及全球化产品的安全性保障。通过提升低资源语言的安全性，该方法能够有效降低语言模型在实际应用中的风险，具有重要的社会价值和实际影响。

📄 摘要（原文）

Large Language Models (LLMs) exhibit significant safety disparities across languages, with low-resource languages (LRLs) often bypassing safety guardrails established for high-resource languages (HRLs) like English. Existing solutions, such as multilingual supervised fine-tuning (SFT) or Reinforcement Learning from Human Feedback (RLHF), are computationally expensive and dependent on scarce multilingual safety data. In this work, we propose a novel, training-free alignment framework based on Sparse Weight Editing. Identifying that safety capabilities are localized within a sparse set of safety neurons, we formulate the cross-lingual alignment problem as a constrained linear transformation. We derive a closed-form solution to optimally map the harmful representations of LRLs to the robust safety subspaces of HRLs, while preserving general utility via a null-space projection constraint. Extensive experiments across 8 languages and multiple model families (Llama-3, Qwen-2.5) demonstrate that our method substantially reduces Attack Success Rate (ASR) in LRLs with negligible impact on general reasoning capabilities, all achieved with a single, data-efficient calculation.

Multilingual Safety Alignment Via Sparse Weight Editing

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理