GraphAllocBench: A Flexible Benchmark for Preference-Conditioned Multi-Objective Policy Learning

作者: Zhiheng Jiang, Yunzhe Wang, Ryan Marr, Ellen Novoseller, Benjamin T. Files, Volkan Ustun

分类: cs.LG

发布日期: 2026-01-28

💡 一句话要点

提出GraphAllocBench：一个灵活的偏好条件多目标策略学习基准。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多目标强化学习 偏好条件策略学习 图神经网络 资源分配 城市规划

📋 核心要点

现有偏好条件策略学习(PCPL)基准缺乏真实性和可扩展性，难以评估复杂环境下的算法性能。
提出GraphAllocBench，一个基于图的资源分配环境，模拟城市管理，提供多样化的目标和偏好设置。
引入PNDS和OS两个新指标，更直接地评估偏好一致性，并补充了超体积指标的不足。

📝 摘要（中文）

多目标强化学习中的偏好条件策略学习(PCPL)旨在通过将策略与用户指定的关于目标的偏好联系起来，来近似不同的帕累托最优解。这使得单个模型能够通过生成帕累托前沿上或附近的策略，灵活地适应运行时的任意权衡。然而，现有的PCPL基准主要局限于玩具任务和固定环境，限制了它们的真实性和可扩展性。为了解决这个问题，我们引入了GraphAllocBench，这是一个灵活的基准，建立在一个新颖的基于图的资源分配沙盒环境上，灵感来自城市管理，我们称之为CityPlannerEnv。GraphAllocBench提供了一套丰富的具有不同目标函数、变化的偏好条件和高维可扩展性的问题。我们还提出了两个新的评估指标——非支配解比例(PNDS)和排序得分(OS)，它们直接捕捉偏好一致性，同时补充了广泛使用的超体积指标。通过使用多层感知器(MLP)和图感知模型的实验，我们表明GraphAllocBench暴露了现有MORL方法的局限性，并为在复杂的高维组合分配任务中使用基于图的方法(如图神经网络)铺平了道路。除了其预定义的问题集之外，GraphAllocBench还允许用户灵活地改变目标、偏好和分配规则，从而使其成为一个通用且可扩展的基准，用于推进PCPL。

🔬 方法详解

问题定义：现有的偏好条件策略学习(PCPL)基准主要集中在简单的玩具任务上，无法充分评估算法在复杂、高维环境下的性能。这些基准通常缺乏灵活性，难以适应不同的目标函数和偏好条件，限制了研究的范围和实际应用价值。现有方法难以处理大规模组合分配问题，尤其是在资源分配和城市规划等领域。

核心思路：论文的核心思路是构建一个基于图的资源分配环境，模拟城市管理场景，从而提供一个更真实、更灵活的PCPL基准。通过图结构来表示城市中的资源和需求，并允许用户自定义目标函数和偏好条件，从而生成多样化的任务。这种设计使得研究者可以更方便地评估算法在复杂组合优化问题中的性能。

技术框架：GraphAllocBench的核心是CityPlannerEnv环境，它是一个基于图的资源分配沙盒。该环境包含以下主要组成部分：1) 图结构：表示城市中的资源和需求；2) 目标函数：定义需要优化的目标，例如资源利用率、居民满意度等；3) 偏好条件：用户指定的关于目标的偏好；4) 策略：控制资源分配的策略。整体流程是：用户指定目标和偏好 -> 环境生成任务 -> 智能体学习策略 -> 评估策略性能。

关键创新：GraphAllocBench的关键创新在于其基于图的资源分配环境和灵活的任务生成能力。与现有基准相比，GraphAllocBench可以生成更复杂、更真实的PCPL任务，并且允许用户自定义目标函数和偏好条件。此外，论文还提出了两个新的评估指标（PNDS和OS），更直接地评估偏好一致性。

关键设计：CityPlannerEnv使用图神经网络(GNN)来处理图结构数据。具体来说，可以使用不同的GNN架构（例如GCN、GAT）来学习节点和边的表示，然后使用这些表示来指导资源分配。目标函数可以采用加权和的形式，权重由用户指定的偏好条件决定。PNDS指标计算非支配解的比例，OS指标评估策略输出与用户偏好的一致性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，GraphAllocBench能够有效暴露现有MORL方法的局限性。使用MLP和图感知模型进行实验，发现图感知模型在处理复杂组合分配任务时表现更好。新提出的PNDS和OS指标能够更有效地评估偏好一致性，为算法性能评估提供了更全面的视角。具体性能数据未知。

🎯 应用场景

GraphAllocBench可应用于城市规划、资源分配、供应链管理等领域。通过学习偏好条件策略，可以根据不同用户的需求和偏好，自动优化资源分配方案，提高资源利用率和用户满意度。该基准的灵活性和可扩展性使其能够适应各种实际场景，为相关领域的研究和应用提供有力支持。

📄 摘要（原文）

Preference-Conditioned Policy Learning (PCPL) in Multi-Objective Reinforcement Learning (MORL) aims to approximate diverse Pareto-optimal solutions by conditioning policies on user-specified preferences over objectives. This enables a single model to flexibly adapt to arbitrary trade-offs at run-time by producing a policy on or near the Pareto front. However, existing benchmarks for PCPL are largely restricted to toy tasks and fixed environments, limiting their realism and scalability. To address this gap, we introduce GraphAllocBench, a flexible benchmark built on a novel graph-based resource allocation sandbox environment inspired by city management, which we call CityPlannerEnv. GraphAllocBench provides a rich suite of problems with diverse objective functions, varying preference conditions, and high-dimensional scalability. We also propose two new evaluation metrics -- Proportion of Non-Dominated Solutions (PNDS) and Ordering Score (OS) -- that directly capture preference consistency while complementing the widely used hypervolume metric. Through experiments with Multi-Layer Perceptrons (MLPs) and graph-aware models, we show that GraphAllocBench exposes the limitations of existing MORL approaches and paves the way for using graph-based methods such as Graph Neural Networks in complex, high-dimensional combinatorial allocation tasks. Beyond its predefined problem set, GraphAllocBench enables users to flexibly vary objectives, preferences, and allocation rules, establishing it as a versatile and extensible benchmark for advancing PCPL. Code: https://anonymous.4open.science/r/GraphAllocBench

GraphAllocBench: A Flexible Benchmark for Preference-Conditioned Multi-Objective Policy Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理