Semantic Flow Regularization: Teaching LLMs to Generate Diverse Yet Coherent Responses

📄 arXiv: 2605.27971v1 📥 PDF

作者: Kerui Peng, Feifei Li, Xingyu Fan, Wenhui Que

分类: cs.CL, cs.AI

发布日期: 2026-05-27


💡 一句话要点

提出语义流正则化(SFR)以提升LLM在风格化生成任务中的多样性和一致性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 风格化生成 语义流正则化 条件流匹配 输出多样性

📋 核心要点

  1. 现有LLM在风格化生成任务中存在“跨风格崩溃”问题,即输出多样性严重受限。
  2. 提出语义流正则化(SFR),通过条件流匹配监督主干网络,利用随机流源保持多模态性。
  3. 实验表明,SFR在对话和代码生成任务中均能提升输出多样性、风格保真度和回复质量。

📝 摘要(中文)

当大型语言模型被微调以生成具有特定人物角色或语气的回复时,其输出多样性会受到严重限制,我们称之为跨风格崩溃。我们发现这种崩溃源于交叉熵目标,它在共享表示下倾向于抑制多样化的延续。我们提出了语义流正则化(SFR),这是一种轻量级的辅助目标,通过条件流匹配来监督主干网络,使用未来片段的连续句子编码器嵌入。随机流源通过构造保持多模态性;流匹配头在推理时被丢弃,增加了零部署成本。在一个大规模的工业对话数据集(Qwen3-32B,9个人物角色)上,SFR在输出多样性、风格保真度和回复质量方面优于SFT。我们进一步在公共LiveCodeBench-v5(Qwen2.5-Coder-7B-Instruct)上进行了验证,SFR始终提高了pass@k,证实了其在风格化对话之外的通用性。在MBPP上的受控比较表明,多Token预测是SFR的一种退化特殊情况。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在进行风格化生成任务时,输出多样性不足的问题,即“跨风格崩溃”。现有方法,如直接使用交叉熵损失进行微调(SFT),倾向于抑制多样化的延续,导致模型输出过于集中,无法充分表达目标风格的丰富性。

核心思路:论文的核心思路是引入语义流正则化(SFR),通过额外的监督信号来鼓励模型生成更多样化的输出。SFR利用条件流匹配,将未来片段的句子嵌入作为监督信号,引导模型学习更丰富的语义空间。由于流的源头是随机的,因此可以有效地保持多模态性,避免模型陷入单一的输出模式。

技术框架:SFR作为一种辅助目标,与标准的SFT目标共同训练LLM。其主要流程如下:1) 使用句子编码器将未来片段编码为连续的嵌入向量;2) 构建一个条件流模型,将随机噪声映射到这些嵌入向量;3) 使用流匹配损失来训练LLM的主干网络,使其能够预测流的轨迹。在推理阶段,SFR的流匹配头被丢弃,因此不会增加额外的计算成本。

关键创新:SFR的关键创新在于使用连续的句子嵌入作为监督信号,并通过条件流匹配来保持多模态性。与传统的离散token预测方法相比,SFR能够更好地捕捉语义信息,并鼓励模型生成更多样化的输出。此外,SFR的零部署成本也是一个重要的优势。

关键设计:SFR的关键设计包括:1) 使用预训练的句子编码器(例如,Sentence-BERT)来提取句子嵌入;2) 使用条件流模型(例如,连续归一化流CNF)来建模嵌入向量的分布;3) 使用流匹配损失来训练LLM,该损失函数旨在最小化模型预测的流轨迹与真实流轨迹之间的差异。论文还探讨了多Token预测作为SFR的一种特殊情况,并进行了实验比较。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在Qwen3-32B上,SFR在输出多样性、风格保真度和回复质量方面均优于SFT。在LiveCodeBench-v5上,SFR始终提高了pass@k指标,证明了其在代码生成任务中的有效性。在MBPP上的受控实验表明,多Token预测是SFR的一种退化特殊情况,进一步验证了SFR的优越性。

🎯 应用场景

该研究成果可广泛应用于各种需要风格化生成能力的场景,例如:个性化对话系统、角色扮演游戏、创意写作辅助工具等。通过提升LLM的输出多样性和风格保真度,可以显著改善用户体验,并为内容创作提供更多可能性。此外,该方法在代码生成领域的应用也表明其具有一定的通用性。

📄 摘要(原文)

When large language models are fine-tuned to generate persona- or tone-conditioned responses, their output diversity is severely limited--a failure we term Cross-Style Collapse. We trace this collapse to the cross-entropy objective, which under shared representations tends to suppress diverse continuations. We propose Semantic Flow Regularization (SFR), a lightweight auxiliary objective that supervises the backbone with continuous sentence-encoder embeddings of future segments via conditional flow matching. The stochastic flow source preserves multi-modality by construction; the flow-matching head is discarded at inference, adding zero deployment cost. On a large-scale industrial dialogue dataset (Qwen3-32B, 9 personas), SFR improves output diversity, style fidelity, and response quality over SFT. We further validate on the public LiveCodeBench-v5 (Qwen2.5-Coder-7B-Instruct), where SFR consistently improves pass@k, confirming generality beyond stylized dialogue. A controlled comparison on MBPP reveals Multi-Token Prediction to be a degenerate special case of SFR.