FLARE: Diffusion for Hybrid Language Model
作者: Yuchen Zhu, Jing Shi, Chongjian Ge, Hao Tan, Yiran Xu, Wanrong Zhu, Jason Kuen, Koustava Goswami, Rajiv Jain, Yongxin Chen, Molei Tao, Jiuxiang Gu
分类: cs.LG, cs.AI
发布日期: 2026-06-01
💡 一句话要点
FLARE:用于混合语言模型的扩散框架,加速并行解码并保持性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散语言模型 混合注意力 并行解码 模型转换 低延迟推理
📋 核心要点
- 自回归LLM推理速度受限于串行解码,并行生成是加速推理的关键。
- FLARE框架通过系统转换混合注意力LLM,使其同时支持自回归和扩散解码。
- 实验表明,FLARE在保持模型性能的同时,显著提升了单GPU并发服务吞吐量。
📝 摘要(中文)
自回归(AR)大型语言模型(LLM)已取得广泛的实际成功,但顺序解码仍然是低延迟部署的关键瓶颈。最近高效推理的工作主要沿着两个方向发展:通过高效架构降低每次模型调用的成本,以及通过并行生成减少串行解码步骤。混合注意力骨干网络解决了前者,而扩散语言模型(dLLM)通过迭代并行去噪来追求后者。结合这些优势仍然具有挑战性:AR到dLLM的转换通常无法保留种子检查点能力,并且混合注意力循环状态和掩码约束使得扩散训练和服务变得不平凡。我们提出了FLARE,一个用于混合注意力LLM的系统转换框架。我们的分析表明,传输数据质量是能力保持的主要决定因素,超过了损失函数和注意力掩码设计。由此产生的框架结合了token-equal的AR和扩散目标、硬件感知内核以及统一的推理,使一个检查点能够支持AR风格的验证解码和扩散风格的并行去噪。从具有有限的后训练数据的强大AR检查点开始,FLARE在模型规模上与领先的开源dLLM竞争,并在单GPU并发服务中提供优于开源dLLM基线的持续吞吐量增益。我们的结果进一步表明,实际的dLLM不仅受到解码算法的限制,还受到传输数据质量和当前块扩散目标的训练效率的限制,从而推动了数据、目标、架构和推理系统的联合设计。
🔬 方法详解
问题定义:现有自回归(AR)大型语言模型虽然性能强大,但其串行解码方式限制了推理速度,尤其是在低延迟部署场景下。扩散语言模型(dLLM)虽然能够并行生成,但从AR模型转换到dLLM模型时,往往会损失原始AR模型的性能,且混合注意力机制的引入增加了扩散训练的难度。
核心思路:FLARE的核心思路是构建一个系统性的转换框架,将现有的混合注意力AR模型转换为dLLM,使其既能保持AR模型的性能,又能利用dLLM的并行生成能力加速推理。该框架强调传输数据质量的重要性,并采用token-equal的AR和扩散目标,以确保模型转换过程中的信息损失最小化。
技术框架:FLARE框架包含三个主要组成部分:1) 数据准备:高质量的AR到扩散模型的迁移数据是关键。2) 模型训练:采用token-equal的AR和扩散目标函数,确保模型在转换过程中能够保留原始AR模型的知识。3) 硬件加速:针对GPU硬件特性进行优化,提高推理效率。该框架支持统一的推理,即同一个checkpoint可以同时支持AR风格的验证解码和扩散风格的并行去噪。
关键创新:FLARE的关键创新在于其系统性的转换框架,该框架能够有效地将混合注意力AR模型转换为dLLM,同时保持原始AR模型的性能。此外,该框架强调了传输数据质量的重要性,并提出了token-equal的AR和扩散目标函数,这些都有助于提高模型转换的效率和质量。
关键设计:FLARE的关键设计包括:1) 使用高质量的AR到扩散模型的迁移数据,确保模型在转换过程中能够学习到足够的知识。2) 采用token-equal的AR和扩散目标函数,确保模型在转换过程中能够保留原始AR模型的知识。3) 使用硬件感知内核,针对GPU硬件特性进行优化,提高推理效率。4) 设计统一的推理流程,使得同一个checkpoint可以同时支持AR风格的验证解码和扩散风格的并行去噪。
📊 实验亮点
FLARE框架在模型规模上与领先的开源dLLM竞争,并在单GPU并发服务中提供优于开源dLLM基线的持续吞吐量增益。实验结果表明,FLARE不仅能够保持原始AR模型的性能,还能显著提高推理速度,尤其是在高并发场景下。
🎯 应用场景
FLARE框架可应用于各种需要低延迟和高吞吐量的自然语言处理任务,例如实时对话系统、机器翻译、文本摘要等。通过将现有的AR模型转换为dLLM,可以显著提高这些应用的响应速度和并发处理能力,从而提升用户体验。
📄 摘要(原文)
Autoregressive (AR) large language models (LLMs) have achieved broad practical success, but sequential decoding remains a key bottleneck for low-latency deployment. Recent efficient-inference work has progressed along two axes: reducing the cost of each model invocation through efficient architectures, and reducing serial decoding steps through parallel generation. Hybrid attention backbones address the former, while diffusion language models (dLLMs) pursue the latter via iterative parallel denoising. Combining these advantages remains challenging: AR-to-dLLM conversion often fails to preserve seed-checkpoint capability, and hybrid-attention recurrent states and masking constraints make diffusion training and serving nontrivial. We present FLARE, a systematic conversion framework for hybrid-attention LLMs. Our analysis identifies transfer data quality as the primary determinant of capability preservation, outweighing loss formulation and attention-mask design. The resulting framework combines a token-equal AR-and-diffusion objective, hardware-aware kernels, and unified inference, enabling one checkpoint to support both AR-style verified decoding and diffusion-style parallel denoising. Starting from strong AR checkpoints with limited post-training data, FLARE is competitive with leading open-source dLLMs across model scales and delivers consistent throughput gains over open-source dLLM baselines in single-GPU concurrent serving. Our results further suggest that practical dLLMs are limited not only by decoding algorithms, but also by transfer data quality and the training inefficiency of current block-diffusion objectives, motivating joint design of data, objectives, architectures, and inference systems.