PrefMoE: Robust Preference Modeling with Mixture-of-Experts Reward Learning
作者: Ziqin Yuan, Ruiqi Wang, Dezhong Zhao, Baijian Yang, Byung-Cheol Min
分类: cs.RO
发布日期: 2026-05-01
备注: IROS 2026
💡 一句话要点
提出PrefMoE,通过混合专家模型提升偏好学习在噪声数据下的鲁棒性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 偏好学习 强化学习 混合专家模型 鲁棒性 奖励函数
📋 核心要点
- 现有奖励学习方法在处理大规模、异构和冲突的偏好数据时,鲁棒性不足,难以有效提取奖励信号。
- PrefMoE采用混合专家模型,学习多个专业化的奖励专家,并通过软路由机制自适应地组合它们,以捕捉不同的偏好模式。
- 实验结果表明,PrefMoE在运动和操作任务中,提高了偏好预测的鲁棒性,并改善了下游策略学习的性能。
📝 摘要(中文)
基于偏好的强化学习通过从比较反馈中学习奖励结构,为手动奖励工程提供了一种可扩展的替代方案。然而,大规模偏好数据集通常包含异构且部分冲突的监督信息,包括标注者之间的不一致和标注者内部的不一致。现有的奖励学习方法通常将单个奖励模型拟合到此类数据,迫使其平均不兼容的信号,从而限制了鲁棒性。为了解决这个问题,我们提出了PrefMoE,一个用于鲁棒偏好建模的混合专家奖励学习框架。PrefMoE学习多个专门的奖励专家,并使用轨迹级别的软路由来自适应地组合它们,使模型能够捕获噪声和异构偏好监督下的各种潜在偏好模式。负载平衡正则化器通过防止专家崩溃进一步稳定训练。在来自D4RL的运动基准测试和来自MetaWorld的操作任务中,PrefMoE提高了偏好预测的鲁棒性,并比强大的单模型基线带来了更可靠的下游策略学习。
🔬 方法详解
问题定义:论文旨在解决基于偏好的强化学习中,大规模偏好数据集包含异构和冲突监督信息的问题。现有方法通常使用单一奖励模型,难以有效处理这些噪声数据,导致奖励学习的鲁棒性不足,进而影响下游策略学习的性能。
核心思路:PrefMoE的核心思路是利用混合专家模型,将奖励函数建模为多个专家的加权组合。每个专家专注于学习一种特定的偏好模式,通过轨迹级别的软路由机制,根据输入轨迹的特征,自适应地选择合适的专家组合,从而提高模型对噪声数据的鲁棒性。
技术框架:PrefMoE包含以下主要模块:1) 多个奖励专家,每个专家是一个独立的神经网络,用于预测给定轨迹的奖励值;2) 路由网络,用于根据输入轨迹的特征,计算每个专家的权重;3) 损失函数,包括偏好预测损失和负载平衡正则化项。整体流程是:给定一对轨迹,每个专家预测其奖励值,路由网络计算每个专家的权重,然后将奖励值加权求和,得到最终的奖励预测,并计算偏好预测损失。同时,负载平衡正则化项用于防止专家崩溃。
关键创新:PrefMoE的关键创新在于使用混合专家模型来处理异构和冲突的偏好数据。与传统的单一奖励模型相比,PrefMoE能够捕捉不同的偏好模式,并根据输入轨迹的特征自适应地选择合适的专家组合,从而提高模型对噪声数据的鲁棒性。此外,负载平衡正则化项能够有效防止专家崩溃,保证模型的训练稳定性。
关键设计:路由网络通常是一个小型神经网络,输入是轨迹的特征向量,输出是每个专家的权重。权重通常通过softmax函数进行归一化,以保证权重的和为1。负载平衡正则化项通常是每个专家的权重方差的负值,用于鼓励每个专家都被充分利用。具体的网络结构和参数设置需要根据具体的任务进行调整。
🖼️ 关键图片
📊 实验亮点
PrefMoE在D4RL的运动基准测试和MetaWorld的操作任务中进行了评估,实验结果表明,PrefMoE在偏好预测的准确性和下游策略学习的性能方面均优于强大的单模型基线。具体而言,PrefMoE能够更准确地预测人类的偏好,并学习到更有效的策略,从而在各种任务中取得了显著的性能提升。
🎯 应用场景
PrefMoE可应用于各种需要从人类反馈或合成数据中学习奖励函数的强化学习任务,例如机器人控制、游戏AI、推荐系统等。该方法尤其适用于存在大量噪声和不一致偏好数据的场景,能够提高奖励学习的鲁棒性和可靠性,从而提升下游策略的性能。未来,该方法可以扩展到更复杂的偏好建模任务,例如处理多模态偏好数据、学习动态变化的偏好等。
📄 摘要(原文)
Preference-based reinforcement learning offers a scalable alternative to manual reward engineering by learning reward structures from comparative feedback. However, large-scale preference datasets, whether collected from crowdsourced annotators or generated by synthetic teachers, often contain heterogeneous and partially conflicting supervision, including disagreement across annotators and inconsistency within annotators. Existing reward learning methods typically fit a single reward model to such data, forcing it to average incompatible signals and thereby limiting robustness. To solve this, we propose PrefMoE, a mixture-of-experts reward learning framework for robust preference modeling. PrefMoE learns multiple specialized reward experts and uses trajectory-level soft routing to combine them adaptively, enabling the model to capture diverse latent preference patterns under noisy and heterogeneous preference supervision. A load-balancing regularizer further stabilizes training by preventing expert collapse. Across locomotion benchmarks from D4RL and manipulation tasks from MetaWorld, PrefMoE improves preference prediction robustness and leads to more reliable downstream policy learning than strong single-model baselines.