Exploring Domain Robust Lightweight Reward Models based on Router Mechanism

📄 arXiv: 2407.17546v1 📥 PDF

作者: Hyuk Namgoong, Jeesu Jung, Sangkeun Jung, Yoonhyung Roh

分类: cs.LG, cs.AI, cs.CL

发布日期: 2024-07-24

备注: This paper is accepted for ACL 2024


💡 一句话要点

提出基于路由机制的领域鲁棒轻量级奖励模型,提升多领域适应性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 奖励模型 领域自适应 路由机制 混合专家 参数高效 小型语言模型 适配器

📋 核心要点

  1. 现有大型奖励模型在跨领域应用时表现不佳,需要针对新领域数据进行重新训练,成本高昂。
  2. 论文提出基于路由机制的领域特定小型奖励模型,通过专家混合或外部路由选择,实现领域自适应。
  3. 实验表明,该方法在保持性能的同时,显著降低了模型参数量,提升了效率。

📝 摘要(中文)

大型语言模型的进步很大程度上依赖于基于人类反馈的强化学习中的大型奖励模型进行微调。然而,在各种领域中使用单一奖励模型并非总是最佳选择,当引入新的领域数据时,通常需要从头开始重新训练。为了应对这些挑战,我们探索了基于路由机制以领域特定方式运行的小型语言模型的应用。我们提出了三种方法:1) 利用混合专家模型,通过模块化内部路由器和专家来形成单一奖励模型;2) 采用外部路由器从多个领域特定模型中选择合适的奖励模型;3) 该框架通过使用适配器将奖励模型和路由器适配器加载到单个小型语言模型上来减少参数大小。实验验证强调了我们方法的有效性,证明了其性能与基线方法相当,同时还减少了总参数大小。

🔬 方法详解

问题定义:论文旨在解决单一奖励模型在多领域应用中泛化能力不足的问题。现有方法通常需要针对每个新领域从头训练一个大型奖励模型,这导致了巨大的计算成本和存储开销。此外,单一模型难以捕捉不同领域之间的细微差异,从而影响奖励信号的准确性。

核心思路:论文的核心思路是利用路由机制,根据输入数据的领域特征,动态地选择或组合不同的领域特定奖励模型。通过这种方式,模型可以更好地适应不同领域的数据分布,提高奖励预测的准确性和泛化能力。同时,使用小型语言模型和适配器技术可以有效降低参数量,提高训练和推理效率。

技术框架:论文提出了三种技术框架:1) 内部路由的混合专家模型:将单个奖励模型模块化为路由器和多个专家,路由器根据输入选择合适的专家组合;2) 外部路由的多领域模型选择:维护多个领域特定的奖励模型,外部路由器根据输入选择最佳模型;3) 基于适配器的参数高效方法:将奖励模型和路由器适配器加载到单个小型语言模型中,通过适配器调整模型行为。

关键创新:论文的关键创新在于将路由机制引入到奖励模型中,实现了领域自适应的奖励预测。与传统的单一奖励模型相比,该方法可以更好地捕捉不同领域之间的差异,提高奖励信号的准确性。此外,使用小型语言模型和适配器技术可以有效降低参数量,提高训练和推理效率。

关键设计:论文的关键设计包括:1) 路由器的选择策略:可以使用各种分类器或相似度度量方法来选择合适的专家或领域模型;2) 适配器的结构和训练方法:可以使用不同的适配器结构(如 bottleneck 适配器)和训练策略(如冻结预训练模型参数)来优化模型性能;3) 损失函数的设计:可以使用交叉熵损失或对比损失来训练路由器和适配器,以提高领域判别能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在多个领域数据集上取得了与基线方法相当的性能,同时显著降低了模型参数量。具体来说,基于适配器的方法可以在保持性能的同时,将参数量降低到原来的1/3甚至更低。这表明该方法在提高模型效率和可部署性方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种需要领域自适应奖励模型的场景,例如:多领域对话系统、跨领域推荐系统、以及需要根据用户行为进行个性化奖励的任务。通过降低模型参数量,该方法也更易于部署在资源受限的设备上,例如移动设备和嵌入式系统。

📄 摘要(原文)

Recent advancements in large language models have heavily relied on the large reward model from reinforcement learning from human feedback for fine-tuning. However, the use of a single reward model across various domains may not always be optimal, often requiring retraining from scratch when new domain data is introduced. To address these challenges, we explore the utilization of small language models operating in a domain-specific manner based on router mechanisms. Our three approaches are: 1) utilize mixture of experts to form a single reward model by modularizing an internal router and experts, 2) employing external router to select the appropriate reward model from multiple domain-specific models, and 3) the framework reduces parameter size by loading reward models and router adapters onto a single small language model using adapters. Experimental validation underscores the effectiveness of our approach, demonstrating performance comparable to baseline methods while also reducing the total parameter size.