Model Merging and Safety Alignment: One Bad Model Spoils the Bunch

📄 arXiv: 2406.14563v1 📥 PDF

作者: Hasan Abed Al Kader Hammoud, Umberto Michieli, Fabio Pizzati, Philip Torr, Adel Bibi, Bernard Ghanem, Mete Ozay

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-06-20

备注: Under review


💡 一句话要点

提出安全对齐的模型合并方法,解决LLM合并过程中的不对齐问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 模型合并 安全对齐 大型语言模型 合成数据生成 数据感知优化

📋 核心要点

  1. 现有模型合并方法忽略了安全对齐,导致合并后的LLM可能继承并放大原始模型的不对齐问题。
  2. 提出一种两步方法,通过生成合成安全数据并将其融入模型合并的优化过程,显式地提升合并后模型的对齐能力。
  3. 实验表明,该方法能够有效提升合并后LLM在领域专业知识和安全对齐方面的表现。

📝 摘要(中文)

合并大型语言模型(LLM)是一种经济高效的技术,可以将多个专家LLM合并为一个通用的模型,同时保留原始模型的专业知识。然而,当前的方法通常忽略了合并过程中安全对齐的重要性,导致合并后的模型高度不对齐。本文研究了模型合并对对齐的影响。我们评估了几种流行的模型合并技术,表明现有方法不仅传递领域专业知识,还会传播不对齐。我们提出了一种简单的两步方法来解决这个问题:(i)生成合成的安全和领域特定数据,以及(ii)将这些生成的数据整合到现有数据感知模型合并技术的优化过程中。这使我们能够将对齐视为一种可以在生成的合并LLM中最大化的技能。我们的实验表明,在合并过程中整合对齐相关数据是有效的,从而产生了在领域专业知识和对齐方面都表现出色的模型。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)合并过程中出现的安全对齐问题。现有的模型合并方法主要关注如何将多个模型的知识和能力融合到一个模型中,但往往忽略了模型合并后可能出现的安全问题,例如生成有害或不当内容。这些方法没有充分考虑模型对齐问题,导致合并后的模型可能继承甚至放大原始模型的不对齐行为。

核心思路:论文的核心思路是将安全对齐视为一种可以在模型合并过程中进行优化的技能。通过在模型合并过程中引入安全相关的训练数据,引导模型学习安全对齐的行为,从而提高合并后模型的安全性。具体来说,论文提出了一种两步方法,首先生成合成的安全和领域特定数据,然后将这些数据融入到现有的数据感知模型合并技术的优化过程中。

技术框架:该方法主要包含两个阶段:数据生成阶段和模型合并阶段。在数据生成阶段,利用LLM生成合成的安全和领域特定数据,这些数据用于训练模型,使其更好地理解安全相关的概念和规则。在模型合并阶段,将生成的数据融入到现有的数据感知模型合并技术的优化过程中,例如通过微调或知识蒸馏等方式,将安全知识迁移到合并后的模型中。

关键创新:该方法最重要的创新点在于将安全对齐问题纳入到模型合并的优化过程中,通过显式地引入安全相关的训练数据,引导模型学习安全对齐的行为。这与以往的模型合并方法只关注知识融合而忽略安全问题形成了鲜明对比。

关键设计:在数据生成阶段,需要设计合适的提示词和生成策略,以生成高质量的安全和领域特定数据。在模型合并阶段,需要选择合适的数据感知模型合并技术,并调整优化目标,以充分利用生成的数据,提高合并后模型的安全性和性能。具体的损失函数和网络结构取决于所选择的模型合并技术。

📊 实验亮点

论文通过实验验证了所提出方法的有效性。实验结果表明,与现有的模型合并方法相比,该方法能够显著提高合并后模型在安全对齐方面的表现,同时保持甚至提升其在领域专业知识方面的能力。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于各种需要合并多个LLM的场景,尤其是在安全性要求较高的领域,如医疗、金融等。通过该方法,可以有效地提高合并后模型的安全性,降低生成有害或不当内容的风险,从而促进LLM在更广泛领域的应用。

📄 摘要(原文)

Merging Large Language Models (LLMs) is a cost-effective technique for combining multiple expert LLMs into a single versatile model, retaining the expertise of the original ones. However, current approaches often overlook the importance of safety alignment during merging, leading to highly misaligned models. This work investigates the effects of model merging on alignment. We evaluate several popular model merging techniques, demonstrating that existing methods do not only transfer domain expertise but also propagate misalignment. We propose a simple two-step approach to address this problem: (i) generating synthetic safety and domain-specific data, and (ii) incorporating these generated data into the optimization process of existing data-aware model merging techniques. This allows us to treat alignment as a skill that can be maximized in the resulting merged LLM. Our experiments illustrate the effectiveness of integrating alignment-related data during merging, resulting in models that excel in both domain expertise and alignment.