PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching

作者: Ruishuo Chen, Yu Chen, Zhuoran Li, Longbo Huang

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-03-19

💡 一句话要点

PowerFlow：通过原则性分布匹配解锁大语言模型的双重能力

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 无监督学习 强化学习 分布匹配 GFlowNet 文本生成 轨迹平衡

📋 核心要点

现有无监督强化学习方法依赖启发式奖励，缺乏明确的优化目标，易产生偏差。
PowerFlow将无监督微调视为分布匹配问题，利用GFlowNet进行变分采样。
实验表明PowerFlow优于现有RLIF方法，并在创造性任务中提升多样性和质量。

📝 摘要（中文）

无监督内部反馈强化学习(RLIF)已成为激发大语言模型(LLM)潜在能力的一种有前景的范例，无需外部监督。然而，当前的方法依赖于启发式内在奖励，这些奖励通常缺乏明确定义的理论优化目标，并且容易产生退化偏差。本文提出了PowerFlow，一个原则性框架，将无监督微调重新定义为分布匹配问题。通过将GFlowNet视为非归一化密度的摊销变分采样器，我们提出了一个长度感知的轨迹平衡目标，该目标显式地中和了自回归生成中固有的结构长度偏差。通过针对α-power分布，PowerFlow能够定向地激发LLM的双重性质：锐化分布(α>1)以加强逻辑推理，或平坦化分布(α<1)以释放富有表现力的创造力。大量实验表明，PowerFlow始终优于现有的RLIF方法，匹配甚至超过了有监督的GRPO。此外，通过减轻对齐模型中的过度锐化，我们的方法实现了多样性和质量的同时提升，从而改变了创意任务中的帕累托前沿。

🔬 方法详解

问题定义：现有基于内部反馈的无监督强化学习方法（RLIF）在激发大语言模型（LLM）的潜在能力时，依赖于启发式设计的内在奖励函数。这些奖励函数缺乏明确的理论优化目标，容易导致模型产生退化偏差，例如生成内容过于单一或重复。此外，自回归语言模型在生成文本时存在固有的长度偏差，即倾向于生成特定长度的文本，这也会影响模型性能。

核心思路：PowerFlow的核心思路是将无监督微调过程重新定义为一个分布匹配问题。具体来说，该方法旨在使LLM生成的文本分布与一个目标分布相匹配。为了实现这一目标，PowerFlow利用GFlowNet作为一种摊销变分采样器，用于学习非归一化的目标密度。通过优化一个长度感知的轨迹平衡目标，PowerFlow能够显式地消除自回归生成过程中的结构性长度偏差。

技术框架：PowerFlow的整体框架包括以下几个主要步骤：1) 定义一个基于α-power分布的目标分布，该分布可以通过调整α值来控制分布的形状，从而引导LLM生成不同类型的文本（例如，更具逻辑性或更具创造性）。2) 使用GFlowNet学习一个能够从目标分布中采样的生成器。3) 通过优化一个长度感知的轨迹平衡目标，使LLM生成的文本分布与目标分布相匹配。该目标函数考虑了生成轨迹的长度，从而可以消除长度偏差。

关键创新：PowerFlow的关键创新在于其将无监督微调问题形式化为一个分布匹配问题，并利用GFlowNet和长度感知的轨迹平衡目标来解决该问题。与现有方法相比，PowerFlow具有更强的理论基础，并且能够更有效地消除偏差，从而提高LLM的性能。此外，通过调整α-power分布的参数，PowerFlow可以定向地激发LLM的不同能力，例如逻辑推理和创造力。

关键设计：PowerFlow的关键设计包括：1) α-power分布的选择，通过调整α值来控制目标分布的形状。当α>1时，分布更加集中，可以引导LLM生成更具逻辑性的文本；当α<1时，分布更加平坦，可以引导LLM生成更具创造性的文本。2) 长度感知的轨迹平衡目标，该目标函数考虑了生成轨迹的长度，从而可以消除长度偏差。3) GFlowNet的训练，使用标准的GFlowNet训练方法来学习一个能够从目标分布中采样的生成器。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PowerFlow在多个任务上都优于现有的RLIF方法，甚至可以匹配或超过有监督的GRPO方法。例如，在创造性任务中，PowerFlow通过减轻对齐模型中的过度锐化，实现了多样性和质量的同时提升，从而改变了帕累托前沿。具体的性能数据和提升幅度在论文中有详细的展示。

🎯 应用场景

PowerFlow具有广泛的应用前景，可用于提升大语言模型在各种任务中的性能，例如文本生成、对话系统、代码生成等。通过调整α-power分布的参数，可以引导LLM生成不同风格和类型的文本，从而满足不同应用场景的需求。此外，PowerFlow还可以用于改善对齐模型的性能，使其在保持高质量的同时，具有更高的多样性。

📄 摘要（原文）

Unsupervised Reinforcement Learning from Internal Feedback (RLIF) has emerged as a promising paradigm for eliciting the latent capabilities of Large Language Models (LLMs) without external supervision. However, current methods rely on heuristic intrinsic rewards, which often lack a well-defined theoretical optimization target and are prone to degenerative biases. In this work, we introduce PowerFlow, a principled framework that reformulates unsupervised fine-tuning as a distribution matching problem. By casting GFlowNet as an amortized variational sampler for unnormalized densities, we propose a length-aware Trajectory-Balance objective that explicitly neutralizes the structural length biases inherent in autoregressive generation. By targeting $α$-power distributions, PowerFlow enables the directional elicitation of the dual nature of LLMs: sharpening the distribution ($α> 1$) to intensify logical reasoning, or flattening it ($α< 1$) to unlock expressive creativity. Extensive experiments demonstrate that PowerFlow consistently outperforms existing RLIF methods, matching or even exceeding supervised GRPO. Furthermore, by mitigating over-sharpening in aligned models, our approach achieves simultaneous gains in diversity and quality, shifting the Pareto frontier in creative tasks.

PowerFlow: Unlocking the Dual Nature of LLMs via Principled Distribution Matching

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理