Optimizing Backward Policies in GFlowNets via Trajectory Likelihood Maximization

📄 arXiv: 2410.15474v2 📥 PDF

作者: Timofei Gritsaev, Nikita Morozov, Sergey Samsonov, Daniil Tiapkin

分类: cs.LG

发布日期: 2024-10-20 (更新: 2025-03-03)

备注: ICLR 2025


💡 一句话要点

通过轨迹似然最大化优化GFlowNets中的反向策略,提升复杂环境下的模式发现能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 生成式流网络 反向策略优化 强化学习 熵正则化 模式发现

📋 核心要点

  1. 现有GFlowNets方法通常采用固定的反向策略,这限制了模型在复杂环境下的性能和模式发现能力。
  2. 论文提出一种直接优化反向策略的算法,通过最大化熵正则化MDP中的价值函数来提升模型性能。
  3. 实验结果表明,该方法在多种基准测试中,相较于传统方法,收敛速度更快,模式发现能力更强。

📝 摘要(中文)

生成式流网络(GFlowNets)是一类生成模型,它学习以与给定奖励函数成比例的概率对对象进行采样。GFlowNets背后的关键概念是使用两种随机策略:前向策略,它增量式地构建组合对象;以及反向策略,它顺序地解构它们。最近的结果表明,GFlowNet训练与具有特定奖励设计的熵正则化强化学习(RL)问题之间存在密切关系。然而,这种联系仅适用于固定反向策略的设置,这可能是一个重大限制。为了解决这个问题,我们引入了一种简单的反向策略优化算法,该算法涉及直接最大化中间奖励上熵正则化马尔可夫决策过程(MDP)中的价值函数。我们对所提出的方法在各种基准测试中进行了广泛的实验评估,结合了RL和GFlowNet算法,并证明了其在复杂环境中更快的收敛速度和模式发现能力。

🔬 方法详解

问题定义:GFlowNets旨在学习生成与奖励函数成比例的样本。然而,现有方法通常采用固定的反向策略,这限制了模型探索复杂状态空间和发现多个模式的能力。固定的反向策略可能导致次优的样本生成,尤其是在奖励函数具有多个峰值的情况下。

核心思路:论文的核心思路是通过直接优化反向策略来解决上述问题。具体来说,将反向策略的学习视为一个熵正则化的马尔可夫决策过程(MDP),并通过最大化价值函数来优化反向策略。这种方法允许反向策略根据环境动态调整,从而更好地探索状态空间并发现多个模式。

技术框架:该方法的核心是构建一个关于反向策略的MDP。状态是部分构建的对象,动作是移除对象的一部分。奖励是中间状态的奖励,目标是最大化累积奖励。使用策略梯度方法或类似的强化学习算法来优化反向策略,使其能够更好地估计状态的价值。整体流程包括:1) 使用前向策略生成轨迹;2) 使用反向策略回溯轨迹;3) 根据回溯轨迹更新反向策略;4) 重复上述步骤直到收敛。

关键创新:最重要的创新点在于将反向策略的学习视为一个独立的优化问题,并通过最大化价值函数来直接优化反向策略。与传统的固定反向策略相比,这种方法能够更好地适应复杂的环境,并发现更多的模式。此外,该方法将GFlowNet训练与熵正则化强化学习问题联系起来,为理解和改进GFlowNets提供了新的视角。

关键设计:关键设计包括:1) 使用熵正则化来鼓励探索,避免反向策略陷入局部最优;2) 使用策略梯度方法或类似的强化学习算法来优化反向策略;3) 设计合适的奖励函数,以引导反向策略朝着更有利于模式发现的方向发展;4) 选择合适的网络结构来表示反向策略,例如神经网络。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的方法在多个基准测试中均优于传统的GFlowNets方法。例如,在某些复杂环境中,该方法能够更快地收敛,并发现更多的模式。具体而言,与使用固定反向策略的GFlowNets相比,该方法在模式发现方面取得了显著的提升,能够生成更多样化的样本。

🎯 应用场景

该研究成果可广泛应用于生成模型的各个领域,例如药物发现、分子设计、图像生成等。通过优化反向策略,可以提升生成模型在复杂环境下的性能,使其能够生成更多样化、更高质量的样本。此外,该方法还可以应用于强化学习领域,用于优化智能体的探索策略,提升其在复杂任务中的表现。

📄 摘要(原文)

Generative Flow Networks (GFlowNets) are a family of generative models that learn to sample objects with probabilities proportional to a given reward function. The key concept behind GFlowNets is the use of two stochastic policies: a forward policy, which incrementally constructs compositional objects, and a backward policy, which sequentially deconstructs them. Recent results show a close relationship between GFlowNet training and entropy-regularized reinforcement learning (RL) problems with a particular reward design. However, this connection applies only in the setting of a fixed backward policy, which might be a significant limitation. As a remedy to this problem, we introduce a simple backward policy optimization algorithm that involves direct maximization of the value function in an entropy-regularized Markov Decision Process (MDP) over intermediate rewards. We provide an extensive experimental evaluation of the proposed approach across various benchmarks in combination with both RL and GFlowNet algorithms and demonstrate its faster convergence and mode discovery in complex environments.