Graph-GRPO: Training Graph Flow Models with Reinforcement Learning
作者: Baoheng Zhu, Deyu Bo, Delvin Ce Zhang, Xiao Wang
分类: cs.LG
发布日期: 2026-03-11
备注: Under Review
💡 一句话要点
提出Graph-GRPO,通过强化学习训练图流模型以优化图生成任务
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图生成 图流模型 强化学习 分子优化 药物发现
📋 核心要点
- 现有图流模型难以有效对齐复杂的人类偏好或特定任务目标,限制了其应用。
- Graph-GRPO通过在线强化学习框架,利用可验证奖励训练图流模型,实现与目标对齐。
- 实验表明,Graph-GRPO在图生成任务和分子优化任务上均取得了显著的性能提升。
📝 摘要(中文)
图生成是一项基础任务,在药物发现等领域有着广泛的应用。近年来,基于离散流匹配的图生成方法,即图流模型(GFM),因其卓越的性能和灵活的采样而崭露头角。然而,如何有效地使GFM与复杂的人类偏好或特定任务目标对齐仍然是一个重大挑战。本文提出了Graph-GRPO,一个在线强化学习(RL)框架,用于在可验证奖励下训练GFM。我们的方法做出了两个关键贡献:(1)我们推导出了GFM转移概率的解析表达式,取代了蒙特卡洛采样,并实现了RL训练的完全可微rollout;(2)我们提出了一种细化策略,随机扰动图中的特定节点和边,并重新生成它们,从而实现局部探索和生成质量的自我提升。在合成和真实数据集上的大量实验证明了Graph-GRPO的有效性。仅使用50个去噪步骤,我们的方法在planar和tree数据集上分别实现了95.0%和97.5%的Valid-Unique-Novelty分数。此外,Graph-GRPO在分子优化任务上取得了最先进的性能,优于基于图和基于片段的RL方法以及经典遗传算法。
🔬 方法详解
问题定义:论文旨在解决图生成任务中,如何有效地训练图流模型(GFM),使其能够更好地适应复杂的人类偏好或特定任务目标的问题。现有的GFM训练方法通常难以直接优化针对特定任务的奖励函数,导致生成结果与期望目标存在偏差。
核心思路:论文的核心思路是利用强化学习(RL)框架来训练GFM。通过将图生成过程视为一个马尔可夫决策过程(MDP),并设计合适的奖励函数,可以引导GFM生成更符合特定目标的图结构。关键在于如何将离散的图生成过程与可微的RL算法相结合。
技术框架:Graph-GRPO的整体框架包含以下几个主要组成部分:1) 图流模型(GFM):负责图的生成和去噪过程。2) 强化学习Agent:负责根据环境反馈(奖励)调整GFM的参数。3) 奖励函数:用于评估生成图的质量,并指导RL Agent的学习。4) 细化策略:通过随机扰动和重新生成图的部分结构,实现局部探索和优化。整个训练过程是一个在线RL过程,Agent与环境交互,不断优化GFM的生成能力。
关键创新:论文的两个关键创新点在于:1) 推导出了GFM转移概率的解析表达式,避免了传统的蒙特卡洛采样,从而实现了完全可微的rollout,使得可以使用基于梯度的RL算法进行训练。2) 提出了细化策略,通过局部扰动和重新生成,增强了模型的探索能力,避免陷入局部最优。
关键设计:在转移概率的解析表达式推导中,论文利用了GFM的流匹配特性,将离散的图生成过程转化为连续的概率分布。在细化策略中,论文随机选择节点和边进行扰动,并使用GFM重新生成这些局部结构。奖励函数的设计需要根据具体的任务目标进行调整,例如,在分子优化任务中,可以使用分子的性质(如溶解度、结合亲和力等)作为奖励信号。
🖼️ 关键图片
📊 实验亮点
Graph-GRPO在合成数据集(planar和tree)上取得了显著的性能提升,仅使用50个去噪步骤,Valid-Unique-Novelty分数分别达到了95.0%和97.5%。在分子优化任务上,Graph-GRPO也超越了现有的基于图和基于片段的RL方法以及经典遗传算法,取得了state-of-the-art的性能。
🎯 应用场景
Graph-GRPO具有广泛的应用前景,尤其是在药物发现、材料设计等领域。通过优化图的结构,可以生成具有特定性质的分子或材料,加速新药和新材料的研发过程。此外,该方法还可以应用于社交网络生成、知识图谱构建等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
Graph generation is a fundamental task with broad applications, such as drug discovery. Recently, discrete flow matching-based graph generation, \aka, graph flow model (GFM), has emerged due to its superior performance and flexible sampling. However, effectively aligning GFMs with complex human preferences or task-specific objectives remains a significant challenge. In this paper, we propose Graph-GRPO, an online reinforcement learning (RL) framework for training GFMs under verifiable rewards. Our method makes two key contributions: (1) We derive an analytical expression for the transition probability of GFMs, replacing the Monte Carlo sampling and enabling fully differentiable rollouts for RL training; (2) We propose a refinement strategy that randomly perturbs specific nodes and edges in a graph, and regenerates them, allowing for localized exploration and self-improvement of generation quality. Extensive experiments on both synthetic and real datasets demonstrate the effectiveness of Graph-GRPO. With only 50 denoising steps, our method achieves 95.0\% and 97.5\% Valid-Unique-Novelty scores on the planar and tree datasets, respectively. Moreover, Graph-GRPO achieves state-of-the-art performance on the molecular optimization tasks, outperforming graph-based and fragment-based RL methods as well as classic genetic algorithms.