A safety realignment framework via subspace-oriented model fusion for large language models

作者: Xin Yi, Shunfan Zheng, Linlin Wang, Xiaoling Wang, Liang He

分类: cs.CL

发布日期: 2024-05-15

💡 一句话要点

提出基于子空间模型融合的安全重对齐框架，提升大语言模型安全性。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 安全性 模型融合 子空间学习 安全对齐

📋 核心要点

现有大语言模型安全防护脆弱，易受攻击，且下游任务微调可能损害安全性。
提出子空间模型融合的安全重对齐框架，融合安全对齐模型和微调模型的优势。
实验验证该框架在保证安全性的同时，不会显著降低下游任务的性能。

📝 摘要（中文）

目前大语言模型（LLMs）的安全防护机制容易受到越狱攻击，本质上非常脆弱。即使在表面上良性的数据上进行下游任务微调，也可能损害安全性。一个潜在的解决方案是在下游微调之后进行安全微调。然而，安全微调存在灾难性遗忘的风险，LLMs可能会恢复安全措施，但会丢失在下游微调期间获得的特定于任务的知识。本文提出了一种通过子空间模型融合（SOMF）的安全重对齐框架，旨在将初始对齐模型的安全防护能力和当前微调模型的任务能力结合到重对齐模型中。该方法首先从每个微调模型的权重中解耦所有任务向量。然后，通过子空间掩蔽技术识别这些向量中的安全相关区域。最后，探索基于识别的安全子空间，将初始安全对齐的LLM与所有任务向量进行融合。验证表明，安全重对齐框架满足单个微调模型以及多个模型融合过程中的安全要求。研究结果证实，SOMF在不显著损害下游任务性能的情况下，包括中文、英文和印地语的指令遵循，以及代码和数学问题求解能力，保持了安全性。

🔬 方法详解

问题定义：论文旨在解决大语言模型在下游任务微调后，容易丧失安全性的问题。现有方法，如安全微调，容易导致灾难性遗忘，即模型恢复安全性的同时，忘记了下游任务的知识。因此，如何在微调后重新对齐模型的安全性，同时保留任务特定知识，是本文要解决的核心问题。

核心思路：论文的核心思路是通过模型融合，将一个预先安全对齐的模型与一个或多个针对特定任务微调的模型进行融合，从而在保留任务性能的同时，恢复模型的安全性。关键在于如何有效地融合这两个模型，避免安全性的丧失和任务性能的下降。

技术框架：该框架主要包含以下几个阶段：1) 任务向量解耦：从微调模型的权重中分离出与特定任务相关的向量。2) 安全子空间识别：通过子空间掩蔽技术，识别任务向量中与安全性相关的区域。3) 模型融合：基于识别的安全子空间，将初始安全对齐的LLM与所有任务向量进行融合，得到重对齐后的模型。

关键创新：该方法的核心创新在于提出了子空间模型融合（SOMF）的概念，通过在子空间层面进行模型融合，能够更精细地控制安全性和任务性能之间的平衡。与传统的模型融合方法相比，SOMF能够更有效地保留安全模型的安全能力，同时将微调模型的任务知识迁移到融合后的模型中。

关键设计：在任务向量解耦阶段，具体方法未知，需要参考论文细节。在安全子空间识别阶段，使用了子空间掩蔽技术，具体实现细节未知，需要参考论文细节。模型融合阶段，如何确定融合权重，以及如何保证融合后的模型既安全又具有良好的任务性能，是关键的设计考虑。损失函数和网络结构细节未知，需要参考论文细节。

📊 实验亮点

实验结果表明，提出的安全重对齐框架能够在不显著降低下游任务性能的情况下，有效提升大语言模型的安全性。具体来说，该框架在中文、英文和印地语的指令遵循任务，以及代码和数学问题求解任务上，均取得了良好的效果。实验验证了该框架在融合多个微调模型时的安全性。

🎯 应用场景

该研究成果可应用于各种需要安全保障的大语言模型应用场景，例如智能客服、内容生成、教育辅导等。通过该方法，可以有效地防止模型生成有害信息，提高用户体验，并降低潜在的法律和伦理风险。该方法还有助于提升大语言模型在实际应用中的可靠性和可信度。

📄 摘要（原文）

The current safeguard mechanisms for large language models (LLMs) are indeed susceptible to jailbreak attacks, making them inherently fragile. Even the process of fine-tuning on apparently benign data for downstream tasks can jeopardize safety. One potential solution is to conduct safety fine-tuning subsequent to downstream fine-tuning. However, there's a risk of catastrophic forgetting during safety fine-tuning, where LLMs may regain safety measures but lose the task-specific knowledge acquired during downstream fine-tuning. In this paper, we introduce a safety realignment framework through subspace-oriented model fusion (SOMF), aiming to combine the safeguard capabilities of initially aligned model and the current fine-tuned model into a realigned model. Our approach begins by disentangling all task vectors from the weights of each fine-tuned model. We then identify safety-related regions within these vectors by subspace masking techniques. Finally, we explore the fusion of the initial safely aligned LLM with all task vectors based on the identified safety subspace. We validate that our safety realignment framework satisfies the safety requirements of a single fine-tuned model as well as multiple models during their fusion. Our findings confirm that SOMF preserves safety without notably compromising performance on downstream tasks, including instruction following in Chinese, English, and Hindi, as well as problem-solving capabilities in Code and Math.

A safety realignment framework via subspace-oriented model fusion for large language models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理