Orthogonal Finetuning for Direct Preference Optimization

作者: Chenxu Yang, Ruipeng Jia, Naibin Gu, Zheng Lin, Siyuan Chen, Chao Pang, Weichong Yin, Yu Sun, Hua Wu, Weiping Wang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-09-23 (更新: 2025-08-25)

💡 一句话要点

提出正交微调方法RoPO，解决DPO模型过拟合问题，提升生成多样性。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 直接偏好优化 DPO 正交微调 过拟合 生成多样性

📋 核心要点

DPO模型存在对负样本过拟合的问题，导致生成内容冗长且缺乏多样性，现有正则化方法虽有改进，但牺牲了对齐性能。
论文提出正交微调方法RoPO，通过旋转和幅度拉伸更新权重，保持超球面能量不变，从而保留神经元间角度编码的知识。
实验结果表明，RoPO在保持对齐性能的同时，显著提升了生成多样性，并在MT-Bench和AlpacaEval 2上取得了优异的性能。

📝 摘要（中文）

直接偏好优化(DPO)是一种有效的偏好优化算法。然而，DPO调整后的模型容易对不喜欢的样本过拟合，表现为过度冗长的生成且缺乏多样性。虽然最近的正则化方法试图通过修改目标函数来缓解这个问题，但它们以降低对齐性能为代价。本文创新性地从权重更新的角度引入正则化，以抑制对齐过拟合。通过初步实验，我们发现过拟合与超球面能量波动之间存在正相关关系。因此，我们通过权重旋转偏好优化(RoPO)方法为DPO引入正交微调，该方法仅对权重参数进行旋转和幅度拉伸更新，以保持超球面能量不变，从而保留神经元之间角度编码的知识。大量实验表明，我们的模型与人类偏好完美对齐，同时仅使用0.0086%的可训练参数即可保留原始表达能力，这表明对过拟合的有效正则化。具体而言，RoPO在MT-Bench上优于DPO高达10分，在AlpacaEval 2上优于DPO高达2.8分，同时将生成多样性平均提高了6分。

🔬 方法详解

问题定义：DPO（Direct Preference Optimization）模型在进行偏好优化时，容易对负样本（dispreferred samples）产生过拟合现象。这种过拟合导致生成的内容过于冗长，并且缺乏多样性。现有的正则化方法试图通过修改目标函数来解决这个问题，但是往往会牺牲模型与人类偏好对齐的性能。

核心思路：论文的核心思路是从权重更新的角度引入正则化，以抑制DPO模型的过拟合。作者发现过拟合与超球面能量波动之间存在正相关关系。因此，通过限制权重更新的方式，保持超球面能量的稳定，从而达到正则化的目的。具体来说，就是只允许权重进行旋转和幅度拉伸的更新，保持神经元之间角度信息的完整性。

技术框架：论文提出的RoPO（Weight-Rotated Preference Optimization）方法，是对DPO算法的改进。整体框架仍然是基于DPO的偏好学习流程，但是在权重更新阶段，RoPO引入了正交微调的机制。具体流程包括：1) 使用DPO进行初步的偏好学习；2) 在权重更新时，使用正交矩阵进行旋转，并进行幅度拉伸；3) 重复步骤2，直到模型收敛。

关键创新：RoPO的关键创新在于将正则化融入到权重更新的过程中，而不是像传统方法那样修改目标函数。通过限制权重的更新方式，保持超球面能量的稳定，从而避免了对负样本的过度拟合。这种方法能够在不牺牲对齐性能的前提下，显著提升生成内容的多样性。

关键设计：RoPO的关键设计在于使用正交矩阵进行权重旋转。正交矩阵的特点是能够保持向量的长度不变，只改变向量的方向。因此，使用正交矩阵进行权重旋转，可以保持神经元之间的角度信息不变，从而保留模型原有的知识。此外，RoPO还引入了幅度拉伸的操作，用于调整权重的幅度，以进一步提升模型的性能。具体使用的正交矩阵生成方法和幅度拉伸的策略在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RoPO在MT-Bench上比DPO提升了高达10分，在AlpacaEval 2上提升了高达2.8分。同时，RoPO还将生成多样性平均提高了6分。更重要的是，RoPO仅使用了0.0086%的可训练参数，就达到了如此显著的性能提升，这表明RoPO是一种非常高效的正则化方法。

🎯 应用场景

该研究成果可应用于各种需要进行偏好优化的自然语言生成任务中，例如对话系统、文本摘要、机器翻译等。通过使用RoPO方法，可以有效提升生成内容的多样性和质量，使其更符合人类的偏好。该方法还有潜力应用于其他机器学习领域，例如图像生成、语音合成等，以提升生成模型的性能和鲁棒性。

📄 摘要（原文）

DPO is an effective preference optimization algorithm. However, the DPO-tuned models tend to overfit on the dispreferred samples, manifested as overly long generations lacking diversity. While recent regularization approaches have endeavored to alleviate this issue by modifying the objective function, they achieved that at the cost of alignment performance degradation. In this paper, we innovatively incorporate regularization from the perspective of weight updating to curb alignment overfitting. Through the pilot experiment, we discovered that there exists a positive correlation between overfitting and the hyperspherical energy fluctuation. Hence, we introduce orthogonal finetuning for DPO via a weight-Rotated Preference Optimization (RoPO) method, which merely conducts rotational and magnitude-stretching updates on the weight parameters to maintain the hyperspherical energy invariant, thereby preserving the knowledge encoded in the angle between neurons. Extensive experiments demonstrate that our model aligns perfectly with human preferences while retaining the original expressive capacity using only 0.0086% of the trainable parameters, suggesting an effective regularization against overfitting. Specifically, RoPO outperforms DPO by up to 10 points on MT-Bench and by up to 2.8 points on AlpacaEval 2, while enhancing the generation diversity by an average of 6 points.

Orthogonal Finetuning for Direct Preference Optimization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理