When Policy Entropy Constraint Fails: Preserving Diversity in Flow-based RLHF via Perceptual Entropy

作者: Xiaofeng Tan, Jun Liu, Bin-Bin Gao, Yuanting Fan, Xi Jiang, Chengjie Wang, Hongsong Wang, Feng Zheng

分类: cs.CV

发布日期: 2026-05-12

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

提出感知熵约束，解决Flow模型RLHF微调中多样性崩溃问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 文图生成 强化学习 人类反馈 多样性 感知熵 Flow模型 RLHF 熵正则化

📋 核心要点

Flow模型在RLHF微调后出现多样性崩溃，但传统策略熵正则化方法失效，无法有效维持生成内容的多样性。
提出感知熵的概念，用于衡量感知空间中的多样性，并设计感知熵约束和生成空间感知约束两种策略。
实验表明，提出的方法在保持生成质量的同时，显著提升了生成内容的多样性，优于传统方法。

📝 摘要（中文）

强化学习与人类反馈（RLHF）被广泛应用于对齐Flow-matching文图生成模型与人类偏好，但微调后常导致严重的多样性崩溃。在强化学习中，多样性通常与策略熵相关，因此会进行熵正则化。然而，本文表明这种直觉在Flow模型中失效：即使感知多样性崩溃，策略熵也保持不变。本文从理论和实验上解释了这种不匹配：恒定的熵源于固定的、预定义的噪声调度，而多样性崩溃是由策略梯度的模式寻求性质驱动的。因此，策略熵无法阻止模型收敛到感知空间中狭窄的高奖励区域。为此，本文引入了感知熵，它捕获感知空间中的多样性并保持标准熵的性质。基于此，本文提出了两种熵正则化策略，即感知熵约束和生成空间上的感知约束，以保持感知多样性并提高质量。在两个基础模型、神经和基于规则的奖励以及三个感知空间上的实验表明，在质量-多样性权衡方面取得了持续的收益；PEC实现了0.734的最佳总体得分（而基线为0.366）；PEC的补充设置进一步达到了0.989的多样性平均值（而基线为0.047）。

🔬 方法详解

问题定义：Flow-matching文图生成模型在经过RLHF微调后，容易出现生成结果多样性崩溃的问题。传统的策略熵正则化方法在Flow模型中失效，无法有效防止模型收敛到高奖励但缺乏多样性的区域。这是因为Flow模型中策略熵受固定噪声调度影响，与感知多样性脱钩。

核心思路：核心思路是引入感知熵，直接度量生成结果在感知空间中的多样性。通过在奖励函数中引入感知熵的正则化项，引导模型生成更多样化的结果，从而缓解多样性崩溃问题。这种方法的核心在于将多样性的度量从策略空间转移到感知空间，更直接地反映了生成结果的实际多样性。

技术框架：整体框架是在RLHF的框架下，修改了奖励函数。具体来说，首先使用Flow模型生成图像，然后使用奖励模型评估图像的质量，同时计算图像在感知空间中的感知熵。最后，将奖励和感知熵结合起来，作为最终的奖励信号，用于更新Flow模型的参数。主要模块包括：Flow文图生成模型、奖励模型、感知空间特征提取器（例如CLIP）和感知熵计算模块。

关键创新：关键创新在于提出了感知熵的概念，并将其应用于Flow模型的RLHF微调中。与传统的策略熵不同，感知熵能够更准确地反映生成结果在感知空间中的多样性。此外，论文还提出了两种基于感知熵的正则化策略：感知熵约束（PEC）和生成空间上的感知约束。

关键设计：论文提出了两种正则化策略。一是感知熵约束（PEC），直接在奖励函数中添加感知熵的正则化项。二是生成空间上的感知约束，通过约束生成结果在感知空间中的分布，来提高多样性。感知熵的计算依赖于选择合适的感知空间，论文实验中使用了CLIP等预训练模型提取的特征作为感知空间。正则化系数的选择对最终结果有重要影响，需要在质量和多样性之间进行权衡。

🖼️ 关键图片

📊 实验亮点

实验结果表明，提出的感知熵约束方法（PEC）在质量-多样性权衡方面取得了显著提升，总体得分达到0.734，而基线方法仅为0.366。在多样性方面，PEC的补充设置达到了0.989的平均值，而基线方法仅为0.047。这些数据表明，该方法能够有效提升Flow模型生成结果的多样性，同时保持较高的生成质量。

🎯 应用场景

该研究成果可应用于各种文图生成任务，尤其是在需要高质量和高多样性生成结果的场景中，例如创意设计、艺术创作、游戏内容生成等。通过引入感知熵约束，可以有效提升生成结果的多样性，避免模型陷入单一模式，从而更好地满足用户的需求。

📄 摘要（原文）

RLHF is widely used to align flow-matching text-to-image models with human preferences, but often leads to severe diversity collapse after fine-tuning. In RL, diversity is often assumed to correlate with policy entropy, motivating entropy regularization. However, we show this intuition breaks in flow models: policy entropy remains constant, even while perceptual diversity collapses. We explain this mismatch both theoretically and empirically: the constant entropy arises from the fixed, pre-defined noise schedule, while the diversity collapse is driven by the mode-seeking nature of policy gradients. As a result, policy entropy fails to prevent the model from converging to a narrow high-reward region in the perceptual space. To this end, we introduce perceptual entropy that captures diversity in a perceptual space and maintains the property of standard entropy. Building upon this insight, we propose two entropy-regularized strategies, Perceptual Entropy Constraint and Perceptual Constraints on Generation Space, to preserve perceptual diversity and improve the quality. Experiments across two base models, neural and rule-based rewards, and three perceptual spaces demonstrate consistent gains in the quality-diversity trade-off; PEC achieves the best overall score of 0.734 (vs. baseline's 0.366); a complementary setting of PEC further reaches a diversity average of 0.989 (vs. baseline's 0.047). Our project page (https://xiaofeng-tan.github.io/projects/PEC) is publicly available.

When Policy Entropy Constraint Fails: Preserving Diversity in Flow-based RLHF via Perceptual Entropy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理