When Policy Entropy Constraint Fails: Preserving Diversity in Flow-based RLHF via Perceptual Entropy
作者: Xiaofeng Tan, Jun Liu, Bin-Bin Gao, Yuanting Fan, Xi Jiang, Chengjie Wang, Hongsong Wang, Feng Zheng
分类: cs.CV
发布日期: 2026-05-12
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出感知熵约束,解决Flow模型RLHF微调中多样性崩溃问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 文图生成 强化学习 人类反馈 多样性 感知熵 Flow模型 RLHF 熵正则化
📋 核心要点
- Flow模型在RLHF微调后出现多样性崩溃,但传统策略熵正则化方法失效,无法有效维持生成内容的多样性。
- 提出感知熵的概念,用于衡量感知空间中的多样性,并设计感知熵约束和生成空间感知约束两种策略。
- 实验表明,提出的方法在保持生成质量的同时,显著提升了生成内容的多样性,优于传统方法。
📝 摘要(中文)
强化学习与人类反馈(RLHF)被广泛应用于对齐Flow-matching文图生成模型与人类偏好,但微调后常导致严重的多样性崩溃。在强化学习中,多样性通常与策略熵相关,因此会进行熵正则化。然而,本文表明这种直觉在Flow模型中失效:即使感知多样性崩溃,策略熵也保持不变。本文从理论和实验上解释了这种不匹配:恒定的熵源于固定的、预定义的噪声调度,而多样性崩溃是由策略梯度的模式寻求性质驱动的。因此,策略熵无法阻止模型收敛到感知空间中狭窄的高奖励区域。为此,本文引入了感知熵,它捕获感知空间中的多样性并保持标准熵的性质。基于此,本文提出了两种熵正则化策略,即感知熵约束和生成空间上的感知约束,以保持感知多样性并提高质量。在两个基础模型、神经和基于规则的奖励以及三个感知空间上的实验表明,在质量-多样性权衡方面取得了持续的收益;PEC实现了0.734的最佳总体得分(而基线为0.366);PEC的补充设置进一步达到了0.989的多样性平均值(而基线为0.047)。
🔬 方法详解
问题定义:Flow-matching文图生成模型在经过RLHF微调后,容易出现生成结果多样性崩溃的问题。传统的策略熵正则化方法在Flow模型中失效,无法有效防止模型收敛到高奖励但缺乏多样性的区域。这是因为Flow模型中策略熵受固定噪声调度影响,与感知多样性脱钩。
核心思路:核心思路是引入感知熵,直接度量生成结果在感知空间中的多样性。通过在奖励函数中引入感知熵的正则化项,引导模型生成更多样化的结果,从而缓解多样性崩溃问题。这种方法的核心在于将多样性的度量从策略空间转移到感知空间,更直接地反映了生成结果的实际多样性。
技术框架:整体框架是在RLHF的框架下,修改了奖励函数。具体来说,首先使用Flow模型生成图像,然后使用奖励模型评估图像的质量,同时计算图像在感知空间中的感知熵。最后,将奖励和感知熵结合起来,作为最终的奖励信号,用于更新Flow模型的参数。主要模块包括:Flow文图生成模型、奖励模型、感知空间特征提取器(例如CLIP)和感知熵计算模块。
关键创新:关键创新在于提出了感知熵的概念,并将其应用于Flow模型的RLHF微调中。与传统的策略熵不同,感知熵能够更准确地反映生成结果在感知空间中的多样性。此外,论文还提出了两种基于感知熵的正则化策略:感知熵约束(PEC)和生成空间上的感知约束。
关键设计:论文提出了两种正则化策略。一是感知熵约束(PEC),直接在奖励函数中添加感知熵的正则化项。二是生成空间上的感知约束,通过约束生成结果在感知空间中的分布,来提高多样性。感知熵的计算依赖于选择合适的感知空间,论文实验中使用了CLIP等预训练模型提取的特征作为感知空间。正则化系数的选择对最终结果有重要影响,需要在质量和多样性之间进行权衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的感知熵约束方法(PEC)在质量-多样性权衡方面取得了显著提升,总体得分达到0.734,而基线方法仅为0.366。在多样性方面,PEC的补充设置达到了0.989的平均值,而基线方法仅为0.047。这些数据表明,该方法能够有效提升Flow模型生成结果的多样性,同时保持较高的生成质量。
🎯 应用场景
该研究成果可应用于各种文图生成任务,尤其是在需要高质量和高多样性生成结果的场景中,例如创意设计、艺术创作、游戏内容生成等。通过引入感知熵约束,可以有效提升生成结果的多样性,避免模型陷入单一模式,从而更好地满足用户的需求。
📄 摘要(原文)
RLHF is widely used to align flow-matching text-to-image models with human preferences, but often leads to severe diversity collapse after fine-tuning. In RL, diversity is often assumed to correlate with policy entropy, motivating entropy regularization. However, we show this intuition breaks in flow models: policy entropy remains constant, even while perceptual diversity collapses. We explain this mismatch both theoretically and empirically: the constant entropy arises from the fixed, pre-defined noise schedule, while the diversity collapse is driven by the mode-seeking nature of policy gradients. As a result, policy entropy fails to prevent the model from converging to a narrow high-reward region in the perceptual space. To this end, we introduce perceptual entropy that captures diversity in a perceptual space and maintains the property of standard entropy. Building upon this insight, we propose two entropy-regularized strategies, Perceptual Entropy Constraint and Perceptual Constraints on Generation Space, to preserve perceptual diversity and improve the quality. Experiments across two base models, neural and rule-based rewards, and three perceptual spaces demonstrate consistent gains in the quality-diversity trade-off; PEC achieves the best overall score of 0.734 (vs. baseline's 0.366); a complementary setting of PEC further reaches a diversity average of 0.989 (vs. baseline's 0.047). Our project page (https://xiaofeng-tan.github.io/projects/PEC) is publicly available.