Explaining and Breaking the Safety-Helpfulness Ceiling via Preference Dimensional Expansion

📄 arXiv: 2605.11679v1 📥 PDF

作者: ShiYing Huang, Liang Lin, Yuer Li, Kaiwen Luo, Zhenhong Zhou, An Zhang, Junhao Dong, Kun Wang, Zhigang Zeng

分类: cs.AI

发布日期: 2026-05-12


💡 一句话要点

提出MORA,通过扩展奖励维度打破大语言模型安全性-有用性瓶颈

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型对齐 多目标优化 奖励维度扩展 安全性 有用性 prompt工程 MORA

📋 核心要点

  1. 现有大语言模型对齐方法难以突破安全性与有用性的固有矛盾,在两者之间进行权衡。
  2. MORA通过扩展奖励维度,重塑prompt,使模型能够更好地理解和满足多方面的偏好。
  3. 实验结果表明,MORA在序列和同步对齐中均能有效提升模型性能,尤其是在安全性方面。

📝 摘要(中文)

大型语言模型的多目标对齐通常面临不同人类偏好之间的零和冲突,即优化一个指标(如有用性)往往会牺牲另一个指标(如安全性)。现有工作主要集中于数据选择、参数合并或训练期间的算法平衡,但这些方法仅在固定的帕累托前沿上进行折衷,无法从根本上解决内在的权衡。本文从多维奖励的角度出发,通过扩展模型的rollout并分析不同奖励维度上的输出,得出结论:多目标之间的冲突源于prompt本身限制了可实现的多维奖励。基于此,提出了多目标奖励同化(MORA),通过预采样隔离单奖励prompt,并通过重写原始问题以包含多维意图来扩展奖励多样性。实验表明,在序列对齐中,MORA在helpful、harmless和truthful维度上进行多偏好对齐后,实现了5%到12.4%的单偏好改进,尤其是在harmlessness方面。在同步对齐中,MORA实现了平均4.6%的总体奖励提升。

🔬 方法详解

问题定义:现有的大语言模型对齐方法,例如数据选择、参数合并等,在优化多个目标(如安全性、有用性和真实性)时,往往需要在这些目标之间进行折衷。这种折衷源于模型在固定的帕累托前沿上进行优化,无法同时提升所有目标的性能。核心问题在于prompt本身可能限制了模型能够实现的多维奖励。

核心思路:MORA的核心思路是通过扩展奖励维度来打破这种限制。具体来说,MORA首先识别出能够有效激发模型在特定奖励维度上表现的prompt,然后通过重写原始问题,将多个奖励维度的意图融入到prompt中,从而引导模型在多个维度上进行优化。这样,模型不再需要在不同目标之间进行权衡,而是能够同时提升多个目标的性能。

技术框架:MORA主要包含两个阶段:预采样和奖励同化。在预采样阶段,MORA通过采样大量的prompt,并评估模型在不同奖励维度上的表现,从而识别出能够有效激发模型在特定维度上表现的prompt。在奖励同化阶段,MORA使用这些prompt来重写原始问题,将多个奖励维度的意图融入到prompt中。然后,使用这些重写后的prompt来训练模型,使其能够更好地理解和满足多方面的偏好。

关键创新:MORA的关键创新在于它从prompt的角度出发,通过扩展奖励维度来解决多目标对齐问题。与现有方法不同,MORA不是在固定的帕累托前沿上进行折衷,而是通过改变prompt来扩展帕累托前沿,从而实现多个目标的共同提升。这种方法能够更有效地利用模型的潜力,从而获得更好的性能。

关键设计:MORA的关键设计包括:1) 使用预采样来识别单奖励prompt;2) 使用重写技术将多个奖励维度的意图融入到prompt中;3) 使用重写后的prompt来训练模型。具体的重写方法未知,论文中可能没有详细描述。

📊 实验亮点

MORA在序列对齐中实现了5%到12.4%的单偏好改进,尤其是在安全性方面取得了显著提升。在同步对齐中,MORA实现了平均4.6%的总体奖励提升。这些结果表明,MORA能够有效地打破安全性-有用性瓶颈,并提升大语言模型的多目标对齐性能。

🎯 应用场景

MORA可应用于各种需要平衡多个目标的大语言模型对齐场景,例如对话系统、内容生成和智能助手。通过提升模型的安全性、有用性和真实性,MORA可以提高用户满意度,减少潜在的风险,并促进大语言模型在更广泛领域的应用。

📄 摘要(原文)

In the realm of multi-objective alignment for large language models, balancing disparate human preferences often manifests as a zero-sum conflict. Specifically, the intrinsic tension between competing goals dictates that aggressively optimizing for one metric (e.g., helpfulness) frequently incurs a substantial penalty on another (e.g., harmlessness). While prior work mainly focuses on data selection, parameter merging, or algorithmic balancing during training, these approaches merely force compromises between divergent preferences along a fixed Pareto frontier, failing to fundamentally resolve the inherent trade-off. In this work, we approach this problem from a novel perspective of multi-dimensional rewards. By scaling up the model's rollouts and analyzing the outputs across different reward dimensions, we arrive at a critical conclusion: the conflict among multiple objectives stems from the fact that the prompt itself inherently restricts the achievable multi-dimensional rewards. Based on this core observation, we propose MORA: Multi-Objective Reward Assimilation. Specifically, MORA isolates single-reward prompts through pre-sampling and expands their reward diversity by rewriting the original questions to incorporate multi-dimensional intents. Extensive experiments demonstrate that: (1) in sequential alignment, MORA achieves single-preference improvements ranging from 5% to 12.4%, with exceptional gains in harmlessness, after multiple-preference alignment across helpful, harmless, and truthful dimensions. (2) In simultaneous alignment, MORA achieves an average overall reward improvement of 4.6%. Our codes are available at https://anonymous.4open.science/r/MORA-MPA.