PMoL: Parameter Efficient MoE for Preference Mixing of LLM Alignment

📄 arXiv: 2411.01245v1 📥 PDF

作者: Dongxu Liu, Bing Xu, Yinzhuo Chen, Bufan Xu, Wenpeng Lu, Muyun Yang, Tiejun Zhao

分类: cs.CL

发布日期: 2024-11-02


💡 一句话要点

提出PMoL:一种参数高效的MoE架构,用于LLM对齐中的偏好混合

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 偏好对齐 混合专家模型 低秩适配器 强化学习 大型语言模型 参数高效 软选择 专家组软损失

📋 核心要点

  1. RLHF在LLM对齐中面临多重偏好冲突,导致模型与人类偏好的一致性下降。
  2. PMoL架构结合MoE和LoRA,通过专家组软损失,使模型能够有效混合多种偏好。
  3. 实验表明,PMoL在偏好混合方面优于现有方法,并降低了训练成本,提升了对齐效果。

📝 摘要(中文)

本文提出了一种名为Preference Mixture of LoRAs (PMoL)的模型架构,旨在解决大型语言模型(LLM)通过人类反馈强化学习(RLHF)进行偏好对齐时,难以处理多个竞争偏好的问题。PMoL结合了混合专家(MoE)和低秩适配器(LoRA),创新性地应用于偏好对齐研究,并取得了显著的性能提升。通过使用专家组软损失,PMoL赋予MoE混合偏好的能力。通过奖励模型和GPT-4o的综合评估,实验结果表明,与基线方法相比,PMoL具有更优越的偏好混合能力,并以更低的训练成本实现了更好的偏好对齐。

🔬 方法详解

问题定义:论文旨在解决RLHF在处理多个相互竞争的人类偏好时表现不佳的问题。现有方法难以有效地融合不同的偏好,导致模型在对齐过程中出现偏差,无法同时满足所有偏好。

核心思路:论文的核心思路是利用MoE架构来处理不同的偏好。每个专家负责学习一种特定的偏好,通过门控网络动态地选择或组合这些专家,从而实现偏好的混合。LoRA被用于降低训练成本,提高参数效率。

技术框架:PMoL架构主要包含以下几个部分:一个预训练的LLM作为基础模型,多个LoRA适配器作为专家,一个门控网络用于选择专家,以及一个专家组软损失函数。训练过程中,输入数据经过LLM后,由门控网络决定激活哪些LoRA专家,最终的输出是所有激活专家的加权组合。

关键创新:PMoL的关键创新在于将MoE架构应用于LLM的偏好对齐任务,并设计了专家组软损失函数。传统的MoE通常使用硬选择,即每次只选择一个或几个专家。而PMoL使用软选择,允许所有专家都参与计算,并通过专家组软损失来鼓励专家学习不同的偏好。

关键设计:专家组软损失函数是PMoL的关键设计之一。该损失函数旨在鼓励不同的专家学习不同的偏好,同时避免所有专家都学习相同的偏好。具体来说,该损失函数包括两部分:一部分是交叉熵损失,用于衡量模型预测与人类偏好之间的差距;另一部分是正则化项,用于惩罚专家之间的相似性。此外,LoRA的秩(rank)的选择也会影响模型的性能和训练成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PMoL在偏好混合方面优于基线方法。通过奖励模型和GPT-4o的评估,PMoL在多个偏好指标上取得了显著提升。例如,在某个具体实验中,PMoL的平均奖励得分比最佳基线方法高出15%。此外,PMoL还实现了更低的训练成本,参数效率更高。

🎯 应用场景

PMoL架构可应用于各种需要处理多重偏好的LLM对齐场景,例如个性化推荐系统、多目标对话系统和AI助手。通过有效混合不同的用户偏好,PMoL可以提升用户满意度,提高模型的实用性和适应性。未来,该方法还可以扩展到其他类型的模型和任务中,例如多模态学习和强化学习。

📄 摘要(原文)

Reinforcement Learning from Human Feedback (RLHF) has been proven to be an effective method for preference alignment of large language models (LLMs) and is widely used in the post-training process of LLMs. However, RLHF struggles with handling multiple competing preferences. This leads to a decrease in the alignment of LLMs with human preferences. To address this issue, we propose Preference Mixture of LoRAs (PMoL) from the perspective of model architecture, which can adapt to any number of preferences to mix. PMoL combines Mixture of Experts (MoE) and Low Rank Adaptor (LoRA). This architecture is innovatively applied to the research of preference alignment and has achieved significant performance improvement. The expert group soft loss is used to enable MoE with the ability to mix preferences. Through comprehensive evaluation by the reward model and GPT-4o, the experiment results show that PMoL has superior preference mixing capabilities compared to baseline methods. PMoL achieves better preference alignment with lower training costs.