Semantic Flow Regularization: Teaching LLMs to Generate Diverse Yet Coherent Responses

作者: Kerui Peng, Feifei Li, Xingyu Fan, Wenhui Que

分类: cs.CL, cs.AI

发布日期: 2026-05-27

💡 一句话要点

提出语义流正则化(SFR)以提升LLM在风格化生成任务中的多样性和一致性

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 风格化生成 语义流正则化 条件流匹配 输出多样性

📋 核心要点

现有LLM在风格化生成任务中存在“跨风格崩溃”问题，即输出多样性严重受限。
提出语义流正则化(SFR)，通过条件流匹配监督主干网络，利用随机流源保持多模态性。
实验表明，SFR在对话和代码生成任务中均能提升输出多样性、风格保真度和回复质量。

📝 摘要（中文）

当大型语言模型被微调以生成具有特定人物角色或语气的回复时，其输出多样性会受到严重限制，我们称之为跨风格崩溃。我们发现这种崩溃源于交叉熵目标，它在共享表示下倾向于抑制多样化的延续。我们提出了语义流正则化（SFR），这是一种轻量级的辅助目标，通过条件流匹配来监督主干网络，使用未来片段的连续句子编码器嵌入。随机流源通过构造保持多模态性；流匹配头在推理时被丢弃，增加了零部署成本。在一个大规模的工业对话数据集（Qwen3-32B，9个人物角色）上，SFR在输出多样性、风格保真度和回复质量方面优于SFT。我们进一步在公共LiveCodeBench-v5（Qwen2.5-Coder-7B-Instruct）上进行了验证，SFR始终提高了pass@k，证实了其在风格化对话之外的通用性。在MBPP上的受控比较表明，多Token预测是SFR的一种退化特殊情况。

🔬 方法详解

问题定义：论文旨在解决大型语言模型(LLM)在进行风格化生成任务时，输出多样性不足的问题，即“跨风格崩溃”。现有方法，如直接使用交叉熵损失进行微调(SFT)，倾向于抑制多样化的延续，导致模型输出过于集中，无法充分表达目标风格的丰富性。

核心思路：论文的核心思路是引入语义流正则化(SFR)，通过额外的监督信号来鼓励模型生成更多样化的输出。SFR利用条件流匹配，将未来片段的句子嵌入作为监督信号，引导模型学习更丰富的语义空间。由于流的源头是随机的，因此可以有效地保持多模态性，避免模型陷入单一的输出模式。

技术框架：SFR作为一种辅助目标，与标准的SFT目标共同训练LLM。其主要流程如下：1) 使用句子编码器将未来片段编码为连续的嵌入向量；2) 构建一个条件流模型，将随机噪声映射到这些嵌入向量；3) 使用流匹配损失来训练LLM的主干网络，使其能够预测流的轨迹。在推理阶段，SFR的流匹配头被丢弃，因此不会增加额外的计算成本。

关键创新：SFR的关键创新在于使用连续的句子嵌入作为监督信号，并通过条件流匹配来保持多模态性。与传统的离散token预测方法相比，SFR能够更好地捕捉语义信息，并鼓励模型生成更多样化的输出。此外，SFR的零部署成本也是一个重要的优势。

关键设计：SFR的关键设计包括：1) 使用预训练的句子编码器（例如，Sentence-BERT）来提取句子嵌入；2) 使用条件流模型（例如，连续归一化流CNF）来建模嵌入向量的分布；3) 使用流匹配损失来训练LLM，该损失函数旨在最小化模型预测的流轨迹与真实流轨迹之间的差异。论文还探讨了多Token预测作为SFR的一种特殊情况，并进行了实验比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在Qwen3-32B上，SFR在输出多样性、风格保真度和回复质量方面均优于SFT。在LiveCodeBench-v5上，SFR始终提高了pass@k指标，证明了其在代码生成任务中的有效性。在MBPP上的受控实验表明，多Token预测是SFR的一种退化特殊情况，进一步验证了SFR的优越性。

🎯 应用场景

该研究成果可广泛应用于各种需要风格化生成能力的场景，例如：个性化对话系统、角色扮演游戏、创意写作辅助工具等。通过提升LLM的输出多样性和风格保真度，可以显著改善用户体验，并为内容创作提供更多可能性。此外，该方法在代码生成领域的应用也表明其具有一定的通用性。

📄 摘要（原文）

When large language models are fine-tuned to generate persona- or tone-conditioned responses, their output diversity is severely limited--a failure we term Cross-Style Collapse. We trace this collapse to the cross-entropy objective, which under shared representations tends to suppress diverse continuations. We propose Semantic Flow Regularization (SFR), a lightweight auxiliary objective that supervises the backbone with continuous sentence-encoder embeddings of future segments via conditional flow matching. The stochastic flow source preserves multi-modality by construction; the flow-matching head is discarded at inference, adding zero deployment cost. On a large-scale industrial dialogue dataset (Qwen3-32B, 9 personas), SFR improves output diversity, style fidelity, and response quality over SFT. We further validate on the public LiveCodeBench-v5 (Qwen2.5-Coder-7B-Instruct), where SFR consistently improves pass@k, confirming generality beyond stylized dialogue. A controlled comparison on MBPP reveals Multi-Token Prediction to be a degenerate special case of SFR.

Semantic Flow Regularization: Teaching LLMs to Generate Diverse Yet Coherent Responses

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理