Improving Safety Alignment via Balanced Direct Preference Optimization

📄 arXiv: 2603.22829v1 📥 PDF

作者: Shiji Zhao, Mengyang Wang, Shukun Xiong, Fangzhou Chen, Qihui Zhu, Shouwei Ruan, Yisong Xiao, Ranjie Duan, Xun Chen, XingXing Wei

分类: cs.AI

发布日期: 2026-03-24


💡 一句话要点

提出B-DPO,通过平衡偏好优化解决LLM安全对齐中的过拟合问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 安全对齐 直接偏好优化 过拟合 互信息

📋 核心要点

  1. 现有安全对齐方法,如DPO,在LLM上存在过拟合问题,限制了实际安全性能。
  2. B-DPO通过互信息自适应调节偏好对中首选和非首选响应的优化强度,平衡模型理解。
  3. 实验表明,B-DPO在提升LLM安全能力的同时,保持了其在通用基准上的竞争力。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展和广泛应用,其潜在的安全风险已引起广泛关注。从人类反馈中进行强化学习(RLHF)已被用于增强LLMs的安全性。作为RLHF的一种简单有效的替代方法,直接偏好优化(DPO)被广泛用于安全对齐。然而,安全对齐仍然存在严重的过拟合问题,这限制了它的实际性能。本文从模型对训练数据的理解角度重新审视了过拟合现象。我们发现偏好对中响应之间存在不平衡的偏好理解现象,这会损害模型的安全性能。为了解决这个问题,我们提出了平衡直接偏好优化(B-DPO),它基于互信息自适应地调节首选响应和非首选响应之间的优化强度。一系列实验结果表明,与最先进的方法相比,B-DPO可以在各种主流基准上增强LLMs的安全能力,同时保持具有竞争力的通用能力。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)安全对齐过程中出现的过拟合问题。现有的直接偏好优化(DPO)方法虽然简单有效,但由于模型对偏好对中不同响应的理解存在不平衡,导致过拟合,从而限制了模型在实际应用中的安全性能。这种不平衡体现在模型可能更容易“记住”某些类型的偏好,而忽略其他类型的偏好,最终导致泛化能力下降。

核心思路:论文的核心思路是平衡模型对偏好对中首选响应和非首选响应的理解。通过自适应地调整优化强度,使得模型在学习偏好的过程中,不会过度关注某一类响应,从而缓解过拟合现象。这种平衡是通过互信息来衡量的,互信息可以反映模型对不同响应的理解程度。

技术框架:B-DPO的整体框架仍然基于DPO,但引入了一个自适应的优化强度调节机制。具体来说,对于每个偏好对,B-DPO首先计算模型对首选响应和非首选响应的互信息。然后,根据互信息的大小,自适应地调整优化强度。如果模型对某个响应的理解程度较低,则增加对该响应的优化强度,反之则降低优化强度。

关键创新:B-DPO的关键创新在于提出了基于互信息的自适应优化强度调节机制。与传统的DPO方法相比,B-DPO能够更好地平衡模型对不同响应的理解,从而缓解过拟合现象,提高模型的安全性能。这种自适应调节机制使得模型能够更加关注那些理解不足的响应,从而提高泛化能力。

关键设计:B-DPO的关键设计在于互信息的计算方式和优化强度的调节策略。互信息的计算需要选择合适的概率分布估计方法。优化强度的调节策略需要仔细设计,以避免引入新的偏差。论文中具体使用了何种互信息计算方法和优化强度调节策略未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,B-DPO在多个主流基准测试中,相较于现有最佳方法,在提升LLM安全能力的同时,保持了其在通用能力上的竞争力。具体的性能提升数据未知,但论文强调了B-DPO在安全性和通用性之间的平衡。

🎯 应用场景

B-DPO可应用于各种需要安全对齐的大型语言模型,例如聊天机器人、内容生成系统和智能助手。通过提高模型的安全性和可靠性,B-DPO有助于减少有害内容的生成,提升用户体验,并降低潜在的法律和伦理风险。该方法在金融、医疗等高风险领域具有重要的应用价值。

📄 摘要(原文)

With the rapid development and widespread application of Large Language Models (LLMs), their potential safety risks have attracted widespread attention. Reinforcement Learning from Human Feedback (RLHF) has been adopted to enhance the safety performance of LLMs. As a simple and effective alternative to RLHF, Direct Preference Optimization (DPO) is widely used for safety alignment. However, safety alignment still suffers from severe overfitting, which limits its actual performance. This paper revisits the overfitting phenomenon from the perspective of the model's comprehension of the training data. We find that the Imbalanced Preference Comprehension phenomenon exists between responses in preference pairs, which compromises the model's safety performance. To address this, we propose Balanced Direct Preference Optimization (B-DPO), which adaptively modulates optimization strength between preferred and dispreferred responses based on mutual information. A series of experimental results show that B-DPO can enhance the safety capability while maintaining the competitive general capabilities of LLMs on various mainstream benchmarks compared to state-of-the-art methods. \color{red}{Warning: This paper contains examples of harmful texts, and reader discretion is recommended.