PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching

📄 arXiv: 2603.18363v1 📥 PDF

作者: Ruishuo Chen, Yu Chen, Zhuoran Li, Longbo Huang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-19


💡 一句话要点

PowerFlow:通过原则性分布匹配解锁大语言模型的双重能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 无监督学习 强化学习 分布匹配 GFlowNet 文本生成 轨迹平衡

📋 核心要点

  1. 现有无监督强化学习方法依赖启发式奖励,缺乏明确的优化目标,易产生偏差。
  2. PowerFlow将无监督微调视为分布匹配问题,利用GFlowNet进行变分采样。
  3. 实验表明PowerFlow优于现有RLIF方法,并在创造性任务中提升多样性和质量。

📝 摘要(中文)

无监督内部反馈强化学习(RLIF)已成为激发大语言模型(LLM)潜在能力的一种有前景的范例,无需外部监督。然而,当前的方法依赖于启发式内在奖励,这些奖励通常缺乏明确定义的理论优化目标,并且容易产生退化偏差。本文提出了PowerFlow,一个原则性框架,将无监督微调重新定义为分布匹配问题。通过将GFlowNet视为非归一化密度的摊销变分采样器,我们提出了一个长度感知的轨迹平衡目标,该目标显式地中和了自回归生成中固有的结构长度偏差。通过针对α-power分布,PowerFlow能够定向地激发LLM的双重性质:锐化分布(α>1)以加强逻辑推理,或平坦化分布(α<1)以释放富有表现力的创造力。大量实验表明,PowerFlow始终优于现有的RLIF方法,匹配甚至超过了有监督的GRPO。此外,通过减轻对齐模型中的过度锐化,我们的方法实现了多样性和质量的同时提升,从而改变了创意任务中的帕累托前沿。

🔬 方法详解

问题定义:现有基于内部反馈的无监督强化学习方法(RLIF)在激发大语言模型(LLM)的潜在能力时,依赖于启发式设计的内在奖励函数。这些奖励函数缺乏明确的理论优化目标,容易导致模型产生退化偏差,例如生成内容过于单一或重复。此外,自回归语言模型在生成文本时存在固有的长度偏差,即倾向于生成特定长度的文本,这也会影响模型性能。

核心思路:PowerFlow的核心思路是将无监督微调过程重新定义为一个分布匹配问题。具体来说,该方法旨在使LLM生成的文本分布与一个目标分布相匹配。为了实现这一目标,PowerFlow利用GFlowNet作为一种摊销变分采样器,用于学习非归一化的目标密度。通过优化一个长度感知的轨迹平衡目标,PowerFlow能够显式地消除自回归生成过程中的结构性长度偏差。

技术框架:PowerFlow的整体框架包括以下几个主要步骤:1) 定义一个基于α-power分布的目标分布,该分布可以通过调整α值来控制分布的形状,从而引导LLM生成不同类型的文本(例如,更具逻辑性或更具创造性)。2) 使用GFlowNet学习一个能够从目标分布中采样的生成器。3) 通过优化一个长度感知的轨迹平衡目标,使LLM生成的文本分布与目标分布相匹配。该目标函数考虑了生成轨迹的长度,从而可以消除长度偏差。

关键创新:PowerFlow的关键创新在于其将无监督微调问题形式化为一个分布匹配问题,并利用GFlowNet和长度感知的轨迹平衡目标来解决该问题。与现有方法相比,PowerFlow具有更强的理论基础,并且能够更有效地消除偏差,从而提高LLM的性能。此外,通过调整α-power分布的参数,PowerFlow可以定向地激发LLM的不同能力,例如逻辑推理和创造力。

关键设计:PowerFlow的关键设计包括:1) α-power分布的选择,通过调整α值来控制目标分布的形状。当α>1时,分布更加集中,可以引导LLM生成更具逻辑性的文本;当α<1时,分布更加平坦,可以引导LLM生成更具创造性的文本。2) 长度感知的轨迹平衡目标,该目标函数考虑了生成轨迹的长度,从而可以消除长度偏差。3) GFlowNet的训练,使用标准的GFlowNet训练方法来学习一个能够从目标分布中采样的生成器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PowerFlow在多个任务上都优于现有的RLIF方法,甚至可以匹配或超过有监督的GRPO方法。例如,在创造性任务中,PowerFlow通过减轻对齐模型中的过度锐化,实现了多样性和质量的同时提升,从而改变了帕累托前沿。具体的性能数据和提升幅度在论文中有详细的展示。

🎯 应用场景

PowerFlow具有广泛的应用前景,可用于提升大语言模型在各种任务中的性能,例如文本生成、对话系统、代码生成等。通过调整α-power分布的参数,可以引导LLM生成不同风格和类型的文本,从而满足不同应用场景的需求。此外,PowerFlow还可以用于改善对齐模型的性能,使其在保持高质量的同时,具有更高的多样性。

📄 摘要(原文)

Unsupervised Reinforcement Learning from Internal Feedback (RLIF) has emerged as a promising paradigm for eliciting the latent capabilities of Large Language Models (LLMs) without external supervision. However, current methods rely on heuristic intrinsic rewards, which often lack a well-defined theoretical optimization target and are prone to degenerative biases. In this work, we introduce PowerFlow, a principled framework that reformulates unsupervised fine-tuning as a distribution matching problem. By casting GFlowNet as an amortized variational sampler for unnormalized densities, we propose a length-aware Trajectory-Balance objective that explicitly neutralizes the structural length biases inherent in autoregressive generation. By targeting $α$-power distributions, PowerFlow enables the directional elicitation of the dual nature of LLMs: sharpening the distribution ($α> 1$) to intensify logical reasoning, or flattening it ($α< 1$) to unlock expressive creativity. Extensive experiments demonstrate that PowerFlow consistently outperforms existing RLIF methods, matching or even exceeding supervised GRPO. Furthermore, by mitigating over-sharpening in aligned models, our approach achieves simultaneous gains in diversity and quality, shifting the Pareto frontier in creative tasks.