Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

作者: Baoheng Zhu, Deyu Bo, Delvin Ce Zhang, Xiao Wang

分类: cs.LG

发布日期: 2026-03-11

备注: Under Review

💡 一句话要点

提出Graph-GRPO，通过强化学习训练图流模型以优化图生成任务

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 图生成 图流模型 强化学习 分子优化 药物发现

📋 核心要点

现有图流模型难以有效对齐复杂的人类偏好或特定任务目标，限制了其应用。
Graph-GRPO通过在线强化学习框架，利用可验证奖励训练图流模型，实现与目标对齐。
实验表明，Graph-GRPO在图生成任务和分子优化任务上均取得了显著的性能提升。

📝 摘要（中文）

图生成是一项基础任务，在药物发现等领域有着广泛的应用。近年来，基于离散流匹配的图生成方法，即图流模型（GFM），因其卓越的性能和灵活的采样而崭露头角。然而，如何有效地使GFM与复杂的人类偏好或特定任务目标对齐仍然是一个重大挑战。本文提出了Graph-GRPO，一个在线强化学习（RL）框架，用于在可验证奖励下训练GFM。我们的方法做出了两个关键贡献：（1）我们推导出了GFM转移概率的解析表达式，取代了蒙特卡洛采样，并实现了RL训练的完全可微rollout；（2）我们提出了一种细化策略，随机扰动图中的特定节点和边，并重新生成它们，从而实现局部探索和生成质量的自我提升。在合成和真实数据集上的大量实验证明了Graph-GRPO的有效性。仅使用50个去噪步骤，我们的方法在planar和tree数据集上分别实现了95.0%和97.5%的Valid-Unique-Novelty分数。此外，Graph-GRPO在分子优化任务上取得了最先进的性能，优于基于图和基于片段的RL方法以及经典遗传算法。

🔬 方法详解

问题定义：论文旨在解决图生成任务中，如何有效地训练图流模型（GFM），使其能够更好地适应复杂的人类偏好或特定任务目标的问题。现有的GFM训练方法通常难以直接优化针对特定任务的奖励函数，导致生成结果与期望目标存在偏差。

核心思路：论文的核心思路是利用强化学习（RL）框架来训练GFM。通过将图生成过程视为一个马尔可夫决策过程（MDP），并设计合适的奖励函数，可以引导GFM生成更符合特定目标的图结构。关键在于如何将离散的图生成过程与可微的RL算法相结合。

技术框架：Graph-GRPO的整体框架包含以下几个主要组成部分：1) 图流模型（GFM）：负责图的生成和去噪过程。2) 强化学习Agent：负责根据环境反馈（奖励）调整GFM的参数。3) 奖励函数：用于评估生成图的质量，并指导RL Agent的学习。4) 细化策略：通过随机扰动和重新生成图的部分结构，实现局部探索和优化。整个训练过程是一个在线RL过程，Agent与环境交互，不断优化GFM的生成能力。

关键创新：论文的两个关键创新点在于：1) 推导出了GFM转移概率的解析表达式，避免了传统的蒙特卡洛采样，从而实现了完全可微的rollout，使得可以使用基于梯度的RL算法进行训练。2) 提出了细化策略，通过局部扰动和重新生成，增强了模型的探索能力，避免陷入局部最优。

关键设计：在转移概率的解析表达式推导中，论文利用了GFM的流匹配特性，将离散的图生成过程转化为连续的概率分布。在细化策略中，论文随机选择节点和边进行扰动，并使用GFM重新生成这些局部结构。奖励函数的设计需要根据具体的任务目标进行调整，例如，在分子优化任务中，可以使用分子的性质（如溶解度、结合亲和力等）作为奖励信号。

🖼️ 关键图片

📊 实验亮点

Graph-GRPO在合成数据集（planar和tree）上取得了显著的性能提升，仅使用50个去噪步骤，Valid-Unique-Novelty分数分别达到了95.0%和97.5%。在分子优化任务上，Graph-GRPO也超越了现有的基于图和基于片段的RL方法以及经典遗传算法，取得了state-of-the-art的性能。

🎯 应用场景

Graph-GRPO具有广泛的应用前景，尤其是在药物发现、材料设计等领域。通过优化图的结构，可以生成具有特定性质的分子或材料，加速新药和新材料的研发过程。此外，该方法还可以应用于社交网络生成、知识图谱构建等领域，具有重要的实际价值和未来影响。

📄 摘要（原文）

Graph generation is a fundamental task with broad applications, such as drug discovery. Recently, discrete flow matching-based graph generation, \aka, graph flow model (GFM), has emerged due to its superior performance and flexible sampling. However, effectively aligning GFMs with complex human preferences or task-specific objectives remains a significant challenge. In this paper, we propose Graph-GRPO, an online reinforcement learning (RL) framework for training GFMs under verifiable rewards. Our method makes two key contributions: (1) We derive an analytical expression for the transition probability of GFMs, replacing the Monte Carlo sampling and enabling fully differentiable rollouts for RL training; (2) We propose a refinement strategy that randomly perturbs specific nodes and edges in a graph, and regenerates them, allowing for localized exploration and self-improvement of generation quality. Extensive experiments on both synthetic and real datasets demonstrate the effectiveness of Graph-GRPO. With only 50 denoising steps, our method achieves 95.0\% and 97.5\% Valid-Unique-Novelty scores on the planar and tree datasets, respectively. Moreover, Graph-GRPO achieves state-of-the-art performance on the molecular optimization tasks, outperforming graph-based and fragment-based RL methods as well as classic genetic algorithms.

Graph-GRPO: Training Graph Flow Models with Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理