A Reward-Free Viewpoint on Multi-Objective Reinforcement Learning
作者: Ying-Tu Chen, Wei Hung, Bing-Shu Wu, Zhang-Wei Hong, Ping-Chun Hsieh
分类: cs.LG
发布日期: 2026-04-27
备注: ICLR 2026
💡 一句话要点
提出基于免奖励学习的多目标强化学习方法,提升策略学习效率和性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多目标强化学习 免奖励学习 偏好引导探索 知识迁移 序列决策
📋 核心要点
- 传统MORL方法难以有效处理具有复杂偏好的多目标优化问题,知识共享不足。
- 利用RFRL学习与奖励无关的策略,作为MORL的辅助任务,增强知识迁移和泛化能力。
- 实验表明,该方法在多个MO-Gymnasium任务中显著优于现有MORL方法,提升性能和数据效率。
📝 摘要(中文)
许多序列决策任务涉及优化多个冲突的目标,需要策略能够适应不同的用户偏好。在多目标强化学习(MORL)中,一种广泛研究的方法是通过训练单个策略网络,该网络以偏好加权奖励为条件。本文探索了一种新的算法视角:利用免奖励强化学习(RFRL)进行MORL。虽然RFRL在历史上与MORL独立研究,但它学习针对任何可能的奖励函数的最优策略,使其自然适合MORL处理未知用户偏好的挑战。我们建议使用RFRL的训练目标作为辅助任务来增强MORL,从而实现超出训练时给定的多目标奖励函数的更有效的知识共享。为此,我们将最先进的RFRL算法适配到MORL设置中,并引入了一种偏好引导的探索策略,该策略将学习重点放在环境的相关部分。通过广泛的实验和消融研究,我们证明了我们的方法在各种MO-Gymnasium任务中显著优于最先进的MORL方法,实现了卓越的性能和数据效率。这项工作提供了RFRL到MORL的首次系统性适配,证明了其作为多目标策略学习的可扩展且经验有效的解决方案的潜力。
🔬 方法详解
问题定义:论文旨在解决多目标强化学习(MORL)中,策略学习对用户偏好敏感,且现有方法难以有效利用不同目标之间的知识共享的问题。现有MORL方法通常依赖于偏好加权奖励函数,但这种方式限制了策略的泛化能力,并且在探索复杂环境时效率较低。
核心思路:论文的核心思路是将免奖励强化学习(RFRL)引入MORL框架中。RFRL的目标是学习一个能够适应任何奖励函数的最优策略,这与MORL需要处理不同用户偏好的需求天然契合。通过将RFRL作为辅助任务,可以增强MORL策略的探索能力和知识迁移能力。
技术框架:整体框架包含两个主要部分:一是基于RFRL的策略学习模块,用于学习与奖励无关的策略;二是基于MORL的策略学习模块,用于学习特定偏好下的策略。RFRL模块的训练目标被用作MORL模块的辅助损失,以促进知识共享。此外,论文还引入了一种偏好引导的探索策略,用于指导智能体在环境中进行更有效的探索。
关键创新:该论文的关键创新在于首次将RFRL系统性地应用于MORL,并证明了其有效性。通过将RFRL作为辅助任务,可以显著提升MORL策略的性能和数据效率。此外,偏好引导的探索策略也是一个重要的创新点,它可以帮助智能体更快地找到最优策略。
关键设计:论文采用了一种基于状态访问频率的RFRL算法,并将其目标函数作为MORL策略网络的辅助损失。偏好引导的探索策略通过调整探索噪声的大小来实现,具体来说,对于与当前偏好相关的状态,探索噪声较小,反之则较大。具体的网络结构和参数设置在论文中有详细描述,但此处不便赘述。
📊 实验亮点
实验结果表明,该方法在多个MO-Gymnasium任务中显著优于现有的SOTA MORL方法。例如,在某些任务中,该方法可以将性能提升超过20%。此外,该方法还具有更高的数据效率,这意味着它可以在更少的训练数据下达到相同的性能水平。消融研究进一步验证了RFRL辅助任务和偏好引导探索策略的有效性。
🎯 应用场景
该研究成果可应用于机器人控制、自动驾驶、推荐系统等领域,在这些领域中,需要在多个冲突的目标之间进行权衡,并根据用户或环境的偏好进行调整。例如,在自动驾驶中,需要在安全、效率和舒适性之间进行权衡,该方法可以帮助车辆根据乘客的偏好,学习到最优的驾驶策略。该方法具有很高的实际应用价值和潜力。
📄 摘要(原文)
Many sequential decision-making tasks involve optimizing multiple conflicting objectives, requiring policies that adapt to different user preferences. In multi-objective reinforcement learning (MORL), one widely studied approach} addresses this by training a single policy network conditioned on preference-weighted rewards. In this paper, we explore a novel algorithmic perspective: leveraging reward-free reinforcement learning (RFRL) for MORL. While RFRL has historically been studied independently of MORL, it learns optimal policies for any possible reward function, making it a natural fit for MORL's challenge of handling unknown user preferences. We propose using the RFRL's training objective as an auxiliary task to enhance MORL, enabling more effective knowledge sharing beyond the multi-objective reward function given at training time. To this end, we adapt a state-of-the-art RFRL algorithm to the MORL setting and introduce a preference-guided exploration strategy that focuses learning on relevant parts of the environment. Through extensive experiments and ablation studies, we demonstrate that our approach significantly outperforms the state-of-the-art MORL methods across diverse MO-Gymnasium tasks, achieving superior performance and data efficiency. This work provides the first systematic adaptation of RFRL to MORL, demonstrating its potential as a scalable and empirically effective solution to multi-objective policy learning.