OrthAlign: Orthogonal Subspace Decomposition for Non-Interfering Multi-Objective Alignment

📄 arXiv: 2509.24610v2 📥 PDF

作者: Liang Lin, Zhihao Xu, Junhao Dong, Jian Zhao, Yuchen Yuan, Guibin Zhang, Miao Yu, Yiming Zhang, Zhengtao Yao, Huahui Yi, Dongrui Liu, Xinfeng Li, Kun Wang

分类: cs.LG, cs.CL

发布日期: 2025-09-29 (更新: 2025-09-30)


💡 一句话要点

OrthAlign:正交子空间分解解决大模型多目标对齐中的冲突问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型对齐 多目标优化 正交子空间分解 参数更新 梯度冲突

📋 核心要点

  1. 现有大模型对齐方法在多目标优化时,难以避免不同偏好间的冲突和权衡。
  2. OrthAlign通过正交子空间分解,确保不同偏好的优化在互不干扰的方向上进行。
  3. 实验表明,OrthAlign在多个偏好维度上均有显著提升,并保证了整体的稳定收敛。

📝 摘要(中文)

大型语言模型(LLM)对齐在解决多个人类偏好时面临一个关键困境:在一个维度上的改进常常以牺牲其他维度为代价,从而在诸如helpfulness和harmlessness等相互竞争的目标之间产生不可避免的权衡。以往的工作主要集中于基于约束的优化算法和数据选择策略来缓解冲突,但这些方法忽略了在参数层面直接解决冲突的根本问题。本文提出了OrthAlign,这是一种创新的方法,它通过利用正交子空间分解来从根本上解决多目标偏好对齐中的梯度级冲突,从而开创了一种新的范例。OrthAlign策略性地将参数更新空间分解为正交子空间,确保针对不同偏好的优化发生在数学上互不干扰的方向上。在此基础上,我们提供了理论保证,证明当参数增量满足正交子空间约束和谱范数界限时,所得到的更新表现出线性Lipschitz增长而不是指数不稳定,从而确保了所有偏好维度上的稳定收敛。大量实验表明:I. 在helpful、harmless和truthful维度上进行多目标对齐后,OrthAlign实现了34.61%到50.89%的最大单偏好改进。II. 平均总体奖励提高了13.96%。

🔬 方法详解

问题定义:大型语言模型在对齐过程中,需要同时满足多个目标,例如helpfulness(有用性)、harmlessness(无害性)和truthfulness(真实性)。然而,传统的优化方法往往难以兼顾这些目标,导致在一个目标上提升性能的同时,可能会损害其他目标的性能,造成性能上的trade-off。现有方法主要集中在约束优化和数据选择上,忽略了参数层面的冲突。

核心思路:OrthAlign的核心思路是将参数更新空间分解为多个正交的子空间,每个子空间对应一个特定的偏好目标。通过这种方式,对一个偏好目标的优化只会在其对应的子空间内进行,从而避免了对其他偏好目标产生干扰。这种正交分解保证了不同目标之间的优化过程是相互独立的,从而缓解了多目标优化中的冲突问题。

技术框架:OrthAlign的技术框架主要包括以下几个步骤:1. 定义多个偏好目标,例如helpfulness、harmlessness和truthfulness。2. 对参数更新空间进行正交子空间分解,为每个偏好目标分配一个独立的子空间。3. 在每个子空间内,根据对应的偏好目标进行优化。4. 将各个子空间的更新结果进行合并,得到最终的参数更新。整个框架旨在确保不同偏好目标的优化过程互不干扰,从而实现多目标对齐。

关键创新:OrthAlign最重要的技术创新在于其正交子空间分解的方法。与传统的优化方法不同,OrthAlign不是直接在整个参数空间内进行优化,而是将参数空间分解为多个正交的子空间,并在每个子空间内独立进行优化。这种方法能够有效地避免不同目标之间的冲突,从而实现更好的多目标对齐效果。此外,论文还提供了理论保证,证明了该方法能够确保优化过程的稳定收敛。

关键设计:OrthAlign的关键设计包括:1. 如何进行正交子空间分解,确保各个子空间之间是相互独立的。这可能涉及到使用特定的矩阵分解方法,例如奇异值分解(SVD)或主成分分析(PCA)。2. 如何在每个子空间内进行优化,这可能涉及到使用不同的优化算法或损失函数,以适应不同的偏好目标。3. 如何将各个子空间的更新结果进行合并,这需要仔细考虑各个子空间的权重,以确保最终的更新结果能够平衡各个偏好目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OrthAlign在helpful、harmless和truthful三个维度上进行多目标对齐后,实现了34.61%到50.89%的最大单偏好改进。同时,平均总体奖励也提高了13.96%。这些实验结果表明,OrthAlign能够有效地解决多目标优化中的冲突问题,并在多个偏好维度上取得显著的性能提升。

🎯 应用场景

OrthAlign技术可应用于各种需要多目标对齐的大型语言模型应用场景,例如智能助手、聊天机器人和内容生成系统。通过平衡不同偏好,可以提升用户满意度、减少有害内容生成,并提高模型整体的可靠性和安全性。该研究对提升LLM的实际应用价值和社会效益具有重要意义。

📄 摘要(原文)

Large language model (LLM) alignment faces a critical dilemma when addressing multiple human preferences: improvements in one dimension frequently come at the expense of others, creating unavoidable trade-offs between competing objectives like helpfulness and harmlessness. While prior work mainly focuses on constraint-based optimization algorithms and data selection strategies to mitigate conflicts, these approaches overlook the fundamental issue of resolving conflicts directly at the parameter level. In this paper, we present OrthAlign, an innovative approach that pioneers a new paradigm by leveraging orthogonal subspace decomposition to fundamentally resolve gradient-level conflicts in multi-objective preference alignment. OrthAlign strategically decomposes parameter update spaces into orthogonal subspaces, ensuring that optimization toward different preferences occurs in mathematically non-interfering directions. Building upon this, we provide theoretical guarantees demonstrating that when parameter increments satisfy both orthogonal subspace constraints and spectral norm bounds, the resulting updates exhibit linear Lipschitz growth rather than exponential instability, ensuring stable convergence across all preference dimensions. Extensive experiments show that: I. OrthAlign achieves maximum single-preference improvements ranging from 34.61% to 50.89% after multiple-objective alignment across helpful, harmless, and truthful dimensions. II. With an average overall reward improvement of 13.96%.