FOCUS: DLLMs Know How to Tame Their Compute Bound

作者: Kaihua Liang, Xin Tan, An Zhong, Hong Xu, Marco Canini

分类: cs.LG, cs.AR, cs.CL

发布日期: 2026-01-30

备注: 22 pages, 15 figures

🔗 代码/项目: GITHUB

💡 一句话要点

FOCUS：通过动态计算分配，显著提升扩散语言模型（DLLM）的推理吞吐量。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 扩散语言模型 推理加速 动态计算分配 注意力机制 吞吐量优化

📋 核心要点

扩散语言模型解码计算成本高昂，主要瓶颈在于并行计算中大量算力浪费在不可解码的token上。
FOCUS通过动态聚焦可解码token并剔除不可解码token，有效提升了计算效率和批处理大小。
实验结果表明，FOCUS在多个基准测试中显著提升了吞吐量，最高可达3.52倍，同时保持或提升了生成质量。

📝 摘要（中文）

扩散语言模型（DLLM）为自回归模型提供了一种引人注目的替代方案，但其部署受到高昂解码成本的限制。本文发现DLLM解码中的一个关键低效之处：虽然计算在token块上并行化，但每个扩散步骤中只有一小部分token是可解码的，导致大部分计算浪费在不可解码的token上。进一步观察到，注意力机制导出的token重要性和token级别的解码概率之间存在很强的相关性。基于此，我们提出了FOCUS——一个专为DLLM设计的推理系统。通过动态地将计算集中在可解码的token上，并动态地剔除不可解码的token，FOCUS提高了有效批处理大小，缓解了计算限制，并实现了可扩展的吞吐量。经验评估表明，FOCUS在多个基准测试中实现了高达3.52倍于生产级引擎LMDeploy的吞吐量提升，同时保持或提高了生成质量。FOCUS系统已在GitHub上公开。

🔬 方法详解

问题定义：扩散语言模型（DLLM）的推理成本高，限制了其广泛应用。现有方法在解码过程中，虽然采用并行计算，但由于每个扩散步骤中只有少量token是可解码的，导致大量计算资源被浪费在处理不可解码的token上，效率低下。

核心思路：论文的核心思路是动态地将计算资源集中在可解码的token上，并及时剔除不可解码的token。通过这种方式，可以有效地利用计算资源，提高有效批处理大小，从而提升整体的推理吞吐量。论文观察到token的重要性（由注意力机制决定）与token的可解码概率之间存在强相关性，为动态聚焦提供了依据。

技术框架：FOCUS推理系统主要包含以下几个阶段：1. Token重要性评估：利用注意力机制计算每个token的重要性得分。2. 可解码性预测：基于token重要性得分预测token的可解码概率。3. 动态计算分配：根据可解码概率，将计算资源优先分配给可解码的token。4. Token剔除：将可解码概率低的token从计算图中剔除，减少无效计算。5. 解码与生成：对剩余的可解码token进行解码，生成最终文本。

关键创新：FOCUS的关键创新在于其动态计算分配机制，它能够根据token的可解码概率自适应地调整计算资源的分配，避免了对所有token进行无差别计算的低效做法。与现有方法相比，FOCUS能够更有效地利用计算资源，从而显著提升推理吞吐量。

关键设计：FOCUS使用注意力得分作为token重要性的代理指标。可解码概率的预测可以通过一个轻量级的神经网络实现，该网络以token重要性得分作为输入，输出token的可解码概率。Token剔除的阈值可以根据实际的计算资源和性能要求进行调整。损失函数的设计需要考虑平衡生成质量和计算效率。

🖼️ 关键图片

📊 实验亮点

FOCUS在多个基准测试中实现了显著的吞吐量提升，最高可达3.52倍于生产级引擎LMDeploy。同时，FOCUS在提升吞吐量的同时，能够保持甚至提高生成质量。这些实验结果充分证明了FOCUS的有效性和优越性。

🎯 应用场景

FOCUS技术可应用于各种需要高性能DLLM推理的场景，例如：实时文本生成、对话系统、机器翻译等。通过降低DLLM的推理成本，可以促进其在资源受限环境中的部署，并加速相关应用的普及。该研究对于推动下一代语言模型的发展具有重要意义。

📄 摘要（原文）

Diffusion Large Language Models (DLLMs) offer a compelling alternative to Auto-Regressive models, but their deployment is constrained by high decoding cost. In this work, we identify a key inefficiency in DLLM decoding: while computation is parallelized over token blocks, only a small subset of tokens is decodable at each diffusion step, causing most compute to be wasted on non-decodable tokens. We further observe a strong correlation between attention-derived token importance and token-wise decoding probability. Based on this insight, we propose FOCUS -- an inference system designed for DLLMs. By dynamically focusing computation on decodable tokens and evicting non-decodable ones on-the-fly, FOCUS increases the effective batch size, alleviating compute limitations and enabling scalable throughput. Empirical evaluations demonstrate that FOCUS achieves up to 3.52$\times$ throughput improvement over the production-grade engine LMDeploy, while preserving or improving generation quality across multiple benchmarks. The FOCUS system is publicly available on GitHub: https://github.com/sands-lab/FOCUS.

FOCUS: DLLMs Know How to Tame Their Compute Bound

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理