Preference-based Multi-Objective Reinforcement Learning

📄 arXiv: 2507.14066v1 📥 PDF

作者: Ni Mu, Yao Luan, Qing-Shan Jia

分类: cs.LG

发布日期: 2025-07-18

备注: This article has been accepted for publication in IEEE Transactions on Automation Science and Engineering. This is the author's version, which has not been fully edited, and the content may change prior to final publication. \c{opyright} 2025 IEEE. All rights reserved, including rights for text and data mining and training of artificial intelligence and similar technologies

DOI: 10.1109/TASE.2025.3589271


💡 一句话要点

提出基于偏好的多目标强化学习,解决复杂任务中奖励函数难以设计的问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多目标强化学习 偏好学习 奖励函数设计 帕累托最优 人机交互

📋 核心要点

  1. 多目标强化学习依赖于预定义的奖励函数,但在复杂任务中,设计平衡冲突目标的奖励函数非常困难。
  2. Pb-MORL将偏好整合到MORL框架中,通过构建与偏好对齐的多目标奖励模型来指导策略优化。
  3. 实验结果表明,Pb-MORL在多个任务中表现出色,甚至超越了使用真实奖励函数的oracle方法。

📝 摘要(中文)

多目标强化学习(MORL)是一种用于优化具有多个目标任务的结构化方法。然而,它通常依赖于预定义的奖励函数,而奖励函数很难设计,难以平衡冲突的目标,并可能导致过度简化。偏好可以作为更灵活和直观的决策指导,从而无需复杂的奖励设计。本文介绍了基于偏好的MORL(Pb-MORL),它将偏好整合到MORL框架中。我们从理论上证明了偏好可以推导出整个帕累托前沿的策略。为了使用偏好来指导策略优化,我们的方法构建了一个与给定偏好对齐的多目标奖励模型。我们进一步提供了理论证明,表明优化这个奖励模型等同于训练帕累托最优策略。在基准多目标任务、多能源管理任务以及多线高速公路上的自动驾驶任务中进行的大量实验表明,我们的方法具有竞争力,超过了使用真实奖励函数的oracle方法。这突出了其在复杂现实系统中的实际应用潜力。

🔬 方法详解

问题定义:多目标强化学习(MORL)旨在优化具有多个目标的任务。然而,现有方法通常需要预先定义奖励函数,这在目标冲突或难以量化的情况下变得非常困难。如何有效地利用人类偏好来指导MORL,避免手动设计复杂的奖励函数,是本文要解决的核心问题。现有方法的痛点在于奖励函数的设计过程繁琐且主观,难以保证策略的有效性和泛化性。

核心思路:本文的核心思路是利用人类的偏好信息来学习一个多目标奖励模型,并基于该模型训练帕累托最优策略。通过将偏好信息融入到奖励函数的设计中,可以避免手动调整奖励权重,从而更有效地平衡多个目标。这种方法的核心在于将偏好转化为可优化的奖励信号,从而指导策略学习。

技术框架:Pb-MORL的整体框架包含以下几个主要模块:1) 偏好获取模块:通过与环境交互或专家知识获取人类对不同目标之间的偏好信息。2) 奖励模型构建模块:基于获取的偏好信息,构建一个多目标奖励模型,该模型能够反映人类对不同目标的相对重要性。3) 策略优化模块:利用构建的奖励模型,采用强化学习算法训练帕累托最优策略。4) 策略评估模块:评估训练得到的策略在不同目标上的表现,并根据评估结果调整奖励模型或策略优化过程。

关键创新:Pb-MORL的关键创新在于将偏好信息直接融入到多目标强化学习的框架中,避免了手动设计奖励函数的复杂过程。通过学习一个与人类偏好对齐的奖励模型,可以更有效地指导策略学习,从而获得更好的帕累托最优策略。与现有方法相比,Pb-MORL能够更好地利用人类知识,提高策略的效率和泛化性。

关键设计:在偏好获取模块中,可以采用不同的方法获取偏好信息,例如pairwise comparison、ranking等。奖励模型可以采用线性模型、神经网络等形式,其参数可以通过最小化偏好预测误差来学习。策略优化模块可以采用现有的多目标强化学习算法,例如MOEA/D-based RL、Scalarized RL等。损失函数的设计需要考虑偏好信息的准确性和策略的帕累托最优性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Pb-MORL在基准多目标任务、多能源管理任务以及多线高速公路上的自动驾驶任务中表现出色。在某些任务中,Pb-MORL甚至超越了使用真实奖励函数的oracle方法,表明其能够有效地利用人类偏好信息来指导策略学习。例如,在自动驾驶任务中,Pb-MORL能够更好地平衡车辆的行驶速度和安全性,从而获得更优的驾驶策略。

🎯 应用场景

Pb-MORL具有广泛的应用前景,例如智能交通、机器人控制、能源管理等领域。在智能交通中,可以利用Pb-MORL平衡车辆的行驶速度、安全性、舒适性等多个目标。在机器人控制中,可以利用Pb-MORL实现机器人的多任务协同,例如同时完成抓取、放置等任务。在能源管理中,可以利用Pb-MORL优化能源分配,平衡能源成本、环境影响等多个目标。该研究有助于开发更智能、更高效的决策系统。

📄 摘要(原文)

Multi-objective reinforcement learning (MORL) is a structured approach for optimizing tasks with multiple objectives. However, it often relies on pre-defined reward functions, which can be hard to design for balancing conflicting goals and may lead to oversimplification. Preferences can serve as more flexible and intuitive decision-making guidance, eliminating the need for complicated reward design. This paper introduces preference-based MORL (Pb-MORL), which formalizes the integration of preferences into the MORL framework. We theoretically prove that preferences can derive policies across the entire Pareto frontier. To guide policy optimization using preferences, our method constructs a multi-objective reward model that aligns with the given preferences. We further provide theoretical proof to show that optimizing this reward model is equivalent to training the Pareto optimal policy. Extensive experiments in benchmark multi-objective tasks, a multi-energy management task, and an autonomous driving task on a multi-line highway show that our method performs competitively, surpassing the oracle method, which uses the ground truth reward function. This highlights its potential for practical applications in complex real-world systems.