Large Language Diffusion Models
作者: Shen Nie, Fengqi Zhu, Zebin You, Xiaolu Zhang, Jingyang Ou, Jun Hu, Jun Zhou, Yankai Lin, Ji-Rong Wen, Chongxuan Li
分类: cs.CL, cs.LG
发布日期: 2025-02-14 (更新: 2025-10-18)
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出LLaDA:一种基于扩散模型的大语言模型,挑战自回归模型主导地位。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散模型 大型语言模型 自回归模型 Transformer 预训练 监督微调 反转诅咒 文本生成
📋 核心要点
- 现有大型语言模型主要依赖自回归模型,限制了生成方式的多样性,且存在反转诅咒等问题。
- LLaDA采用扩散模型,通过掩码和反向生成,优化似然下界,提供了一种新的概率生成方法。
- 实验表明,LLaDA在多种任务上与自回归模型性能相当,并在反转诗歌补全任务中超越GPT-4o。
📝 摘要(中文)
大型语言模型(LLMs)的能力通常被认为依赖于自回归模型(ARMs)。本文提出了LLaDA,一个从零开始训练的扩散模型,采用预训练和监督微调(SFT)范式。LLaDA使用前向数据掩码过程和反向生成过程,由Transformer参数化以预测被掩码的token。它通过优化似然下界,为概率推理提供了一种原则性的生成方法。在通用任务、数学、代码等广泛的基准测试中,LLaDA展示了强大的可扩展性,并且性能与我们自构建的ARM基线相当。值得注意的是,LLaDA 8B在上下文学习中与强大的LLM(如LLaMA3 8B)具有竞争力,并且在SFT之后,在多轮对话等案例研究中表现出令人印象深刻的指令遵循能力。此外,LLaDA解决了反转诅咒问题,在反转诗歌补全任务中超越了GPT-4o。研究结果表明,扩散模型在大规模语言建模中具有潜力,并挑战了上述核心LLM能力本质上依赖于ARM的普遍假设。
🔬 方法详解
问题定义:现有的大型语言模型主要依赖于自回归模型(ARMs),这种架构虽然在很多任务上表现出色,但也存在一些固有的局限性。例如,自回归模型在处理需要全局信息的任务时可能表现不佳,并且容易受到“反转诅咒”的影响,即模型能够学习A到B的映射,但无法学习B到A的映射。此外,自回归模型的生成方式较为单一,缺乏探索更多生成可能性的能力。
核心思路:LLaDA的核心思路是利用扩散模型来构建大型语言模型,从而克服自回归模型的局限性。扩散模型通过逐步添加噪声到数据中,然后再逐步从噪声中恢复数据,实现数据的生成。这种生成方式更加灵活,可以探索更多的生成可能性,并且能够更好地处理需要全局信息的任务。通过将扩散模型应用于语言建模,LLaDA旨在提供一种新的、更强大的语言生成方法。
技术框架:LLaDA的整体框架包括两个主要过程:前向数据掩码过程和反向生成过程。在前向过程中,模型逐步将输入文本中的token进行掩码,直到文本完全被噪声覆盖。在反向过程中,模型从噪声开始,逐步恢复被掩码的token,最终生成完整的文本。这两个过程都由一个Transformer模型参数化,该模型负责预测被掩码的token。整个训练过程通过优化似然下界来进行,从而保证模型能够学习到数据的真实分布。
关键创新:LLaDA最重要的创新点在于将扩散模型成功应用于大规模语言建模。与传统的自回归模型不同,LLaDA采用了一种全新的生成方式,能够探索更多的生成可能性,并且能够更好地处理需要全局信息的任务。此外,LLaDA还解决了反转诅咒问题,在反转诗歌补全任务中表现出色。
关键设计:LLaDA的关键设计包括以下几个方面:首先,模型采用了Transformer架构作为其核心组件,Transformer具有强大的序列建模能力,能够有效地处理文本数据。其次,模型采用了前向数据掩码和反向生成过程,这两个过程的设计保证了模型能够学习到数据的真实分布。第三,模型通过优化似然下界来进行训练,这是一种常用的训练方法,能够有效地提高模型的性能。此外,模型还采用了一些其他的技术细节,例如dropout、权重衰减等,以防止过拟合。
🖼️ 关键图片
📊 实验亮点
LLaDA 8B在上下文学习中与LLaMA3 8B等强大的LLM具有竞争力。在经过监督微调(SFT)后,LLaDA在多轮对话等案例研究中表现出令人印象深刻的指令遵循能力。此外,LLaDA在反转诗歌补全任务中超越了GPT-4o,证明了其在解决反转诅咒问题上的有效性。
🎯 应用场景
LLaDA作为一种新型的大语言模型,具有广泛的应用前景。它可以应用于文本生成、机器翻译、对话系统、代码生成等领域。由于其解决了反转诅咒问题,因此在需要双向推理的任务中具有独特的优势。未来,LLaDA有望成为构建更智能、更灵活的AI系统的关键技术。
📄 摘要(原文)
The capabilities of large language models (LLMs) are widely regarded as relying on autoregressive models (ARMs). We challenge this notion by introducing LLaDA, a diffusion model trained from scratch under the pre-training and supervised fine-tuning (SFT) paradigm. LLaDA employs a forward data masking process and a reverse generation process, parameterized by a Transformer to predict masked tokens. It provides a principled generative approach for probabilistic inference by optimizing a likelihood lower bound. Across extensive benchmarks on general tasks, math, code, and so on, LLaDA demonstrates strong scalability and performs comparably to our self-constructed ARM baselines. Remarkably, LLaDA 8B is competitive with strong LLMs like LLaMA3 8B in in-context learning and, after SFT, exhibits impressive instruction-following abilities in case studies such as multi-turn dialogue. Moreover, LLaDA addresses the reversal curse, surpassing GPT-4o in a reversal poem completion task. Our findings show the promise of diffusion models for language modeling at scale and challenge the common assumption that core LLM capabilities discussed above inherently depend on ARMs. Project page and codes: https://ml-gsai.github.io/LLaDA-demo/.