The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training

作者: Rui Zhang, Hongwei Li, Yun Shen, Xinyue Shen, Wenbo Jiang, Guowen Xu, Yang Liu, Michael Backes, Yang Zhang

分类: cs.CR, cs.CL

发布日期: 2026-04-09

备注: Accepted by ACL Findings 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出细调方法以解决大型语言模型的对齐与失调问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 对齐技术 细调方法 安全性 对抗性攻击 模型可信度 重对齐 机制不对称性

📋 核心要点

现有的对齐技术在面对恶意攻击时存在脆弱性，可能导致大型语言模型的失调，进而引发安全隐患。
本研究提出了一种细调方法，通过评估不同的细调策略，探索失调与重对齐之间的相互作用，以增强模型的安全性。
实验结果表明，Odds Ratio Preference Optimization在失调方面表现最佳，而Direct Preference Optimization在重对齐方面表现突出，但会影响模型的实用性。

📝 摘要（中文）

大型语言模型（LLMs）的部署引发了显著的伦理和安全问题。尽管采用了对齐技术来提高模型的安全性和可信度，但对手可以利用这些技术来破坏安全性，导致失调。失调的LLMs可能在开放平台上发布，从而加剧危害。为了解决这个问题，在部署不可信的第三方LLMs之前，需要额外的安全对齐，称为重对齐。本研究探讨了细调方法在失调、重对齐及其相互作用方面的有效性。通过评估四种监督细调（SFT）和两种偏好细调（PFT）方法在四个流行的安全对齐LLMs上的表现，我们揭示了攻击与防御之间的机制不对称性。尽管Odds Ratio Preference Optimization（ORPO）在失调方面最为有效，但Direct Preference Optimization（DPO）在重对齐方面表现优异，尽管牺牲了模型的实用性。此外，我们还识别了模型特定的抗性、多轮对抗动态的残余效应等重要发现。这些发现强调了在LLMs部署中需要强有力的保障措施和定制的安全对齐策略，以降低潜在风险。

🔬 方法详解

问题定义：本论文旨在解决大型语言模型在对齐过程中面临的失调问题，现有方法在应对恶意攻击时存在不足，导致模型安全性降低。

核心思路：论文提出通过细调方法来探索失调与重对齐的关系，利用不同的细调策略来增强模型的安全性和可信度。

技术框架：研究评估了四种监督细调（SFT）和两种偏好细调（PFT）方法，整体流程包括模型训练、评估失调与重对齐效果，以及分析不同方法的相互作用。

关键创新：最重要的技术创新在于揭示了攻击与防御之间的机制不对称性，特别是ORPO和DPO在失调与重对齐中的不同表现，提供了新的视角来理解模型安全性。

关键设计：在实验中，采用了特定的损失函数和参数设置，以优化模型在失调和重对齐过程中的表现，确保实验结果的可靠性和有效性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，Odds Ratio Preference Optimization在失调方面的表现优于其他方法，而Direct Preference Optimization在重对齐方面的效果显著，尽管其牺牲了模型的实用性。这一发现为后续研究提供了重要的实验数据和理论支持。

🎯 应用场景

该研究的潜在应用领域包括大型语言模型的安全部署、对抗性攻击防御以及模型可信度提升等。通过定制的安全对齐策略，可以有效降低模型在实际应用中的风险，提升用户信任度，具有重要的实际价值和未来影响。

📄 摘要（原文）

The deployment of large language models (LLMs) raises significant ethical and safety concerns. While LLM alignment techniques are adopted to improve model safety and trustworthiness, adversaries can exploit these techniques to undermine safety for malicious purposes, resulting in \emph{misalignment}. Misaligned LLMs may be published on open platforms to magnify harm. To address this, additional safety alignment, referred to as \emph{realignment}, is necessary before deploying untrusted third-party LLMs. This study explores the efficacy of fine-tuning methods in terms of misalignment, realignment, and the effects of their interplay. By evaluating four Supervised Fine-Tuning (SFT) and two Preference Fine-Tuning (PFT) methods across four popular safety-aligned LLMs, we reveal a mechanism asymmetry between attack and defense. While Odds Ratio Preference Optimization (ORPO) is most effective for misalignment, Direct Preference Optimization (DPO) excels in realignment, albeit at the expense of model utility. Additionally, we identify model-specific resistance, residual effects of multi-round adversarial dynamics, and other noteworthy findings. These findings highlight the need for robust safeguards and customized safety alignment strategies to mitigate potential risks in the deployment of LLMs. Our code is available at https://github.com/zhangrui4041/The-Art-of-Mis-alignment.

The Art of (Mis)alignment: How Fine-Tuning Methods Effectively Misalign and Realign LLMs in Post-Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理