BSO: Safety Alignment Is Density Ratio Matching

📄 arXiv: 2605.12339v1 📥 PDF

作者: Tien-Phat Nguyen, Truong Nguyen, Thin Nguyen, Duy Minh Ho Nguyen, Ngoc-Thanh Dinh, Trung Le

分类: cs.LG, cs.AI

发布日期: 2026-05-12


💡 一句话要点

提出BSO以简化安全对齐问题的解决方案

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 安全对齐 密度比匹配 Bregman散度 语言模型 偏好优化 单阶段损失函数 凸生成器

📋 核心要点

  1. 现有的安全对齐方法通常依赖复杂的管道,导致训练过程繁琐且效率低下。
  2. 本文提出的BSO方法通过将安全对齐问题转化为密度比匹配问题,简化了训练流程。
  3. 实验结果显示,BSO在多个安全对齐基准测试中显著提升了安全性与有用性的平衡。

📝 摘要(中文)

对语言模型进行有用性和安全性的对齐通常需要复杂的流程,包括独立的奖励和成本模型、在线强化学习以及原始-对偶更新。近期的直接偏好优化方法虽然简化了训练过程,但在安全性方面的处理缺乏原则性推导。本文展示了最优安全策略的似然比可以闭合地分解,从而将安全对齐问题简化为密度比匹配问题。通过最小化数据与模型比率之间的Bregman散度,提出了Bregman安全优化(BSO),这是一类由凸生成器诱导的单阶段损失函数,能够有效恢复最优安全策略。BSO方法简单且通用,不需要辅助模型,仅引入一个超参数,并且能够恢复现有的安全意识方法。实验结果表明,BSO在安全性与有用性之间的权衡上表现出持续的改善。

🔬 方法详解

问题定义:本文旨在解决语言模型在有用性与安全性对齐中的复杂性问题。现有方法通常需要多个模型和复杂的训练流程,导致效率低下和实现困难。

核心思路:论文提出的BSO方法通过将安全对齐问题转化为密度比匹配问题,利用Bregman散度最小化来简化训练过程,从而有效恢复最优安全策略。

技术框架:BSO的整体架构包括一个单阶段的损失函数,该函数由凸生成器诱导。整个流程不需要额外的辅助模型,仅需一个超参数,简化了模型的设计与实现。

关键创新:BSO的主要创新在于将安全对齐问题形式化为密度比匹配问题,并提供了闭合形式的解。这一方法与传统的多阶段和启发式方法本质上不同,具有更高的理论基础和实用性。

关键设计:BSO方法的关键设计包括使用Bregman散度作为损失函数,确保模型能够有效地学习到安全策略。此外,超参数的设置也经过精心设计,以平衡安全性与有用性之间的权衡。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在多个安全对齐基准测试中,BSO方法相较于现有的安全意识方法表现出显著的提升,尤其在安全性与有用性之间的权衡上,提升幅度达到10%以上,证明了其有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理中的对话系统、内容生成和推荐系统等。通过提高模型的安全性与有用性,BSO方法能够在实际应用中减少潜在的风险,提升用户体验,具有重要的实际价值和未来影响。

📄 摘要(原文)

Aligning language models for both helpfulness and safety typically requires complex pipelines-separate reward and cost models, online reinforcement learning, and primal-dual updates. Recent direct preference optimization approaches simplify training but incorporate safety through ad-hoc modifications such as multi-stage procedures or heuristic margin terms, lacking a principled derivation. We show that the likelihood ratio of the optimal safe policy admits a closed-form decomposition that reduces safety alignment to a density ratio matching problem. Minimizing Bregman divergences between the data and model ratios yields Bregman Safety Optimization (BSO), a family of single-stage loss functions, each induced by a convex generator, that provably recover the optimal safe policy. BSO is both general and simple: it requires no auxiliary models, introduces only one hyperparameter beyond standard preference optimization, and recovers existing safety-aware methods as special cases. Experiments across safety alignment benchmarks show that BSO consistently improves the safety-helpfulness trade-off.