NaRA: Noise-Aware LoRA for Parameter-Efficient Fine-Tuning of Diffusion LLMs
作者: Shuaidi Wang, Zhan Zhuang, Ruping Huang, Yu Zhang
分类: cs.AI
发布日期: 2026-05-28
🔗 代码/项目: GITHUB
💡 一句话要点
提出噪声感知LoRA(NaRA),用于高效微调扩散语言模型。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 扩散语言模型 参数高效微调 噪声感知 低秩适应 超网络
📋 核心要点
- 现有PEFT方法在微调扩散语言模型时,忽略了扩散过程中噪声水平变化带来的影响,导致性能受限。
- 提出NaRA,利用噪声水平作为条件,动态生成低秩更新矩阵,使模型能感知扩散过程中的噪声变化。
- 实验表明,NaRA在常识推理、数学推理和代码生成等任务上,均优于噪声无关的基线方法。
📝 摘要(中文)
扩散语言大模型(dLLMs)已成为一种有前景的非自回归生成范式。鉴于完全微调的巨大计算成本,参数高效微调(PEFT)已成为标准方法。然而,现有的PEFT方法(例如LoRA)最初是为自回归模型量身定制的,依赖于与噪声水平无关的静态参数。因此,它们忽略了扩散过程的内在动态,其中输入分布和生成难度沿着去噪轨迹显著变化,导致它们对于dLLMs来说并非最优。为了解决这个问题,我们提出了噪声感知低秩适应(NaRA),它引入了一个由轻量级、全局共享的超网络生成的低秩核心矩阵,该超网络以噪声水平为条件。这种设计使得更新矩阵能够沿着扩散过程连续变化,同时保持参数和延迟开销可忽略不计。我们为所提出的NaRA框架提供了理论依据,并通过常识推理、数学推理和代码生成基准的实验证明了相对于噪声无关基线的一致改进。我们的代码可在https://github.com/generaldi/NaRA获得。
🔬 方法详解
问题定义:论文旨在解决扩散语言模型(dLLMs)参数高效微调(PEFT)的问题。现有PEFT方法,如LoRA,主要针对自回归模型设计,其参数更新策略与噪声水平无关,无法适应dLLMs在去噪过程中输入分布和生成难度动态变化的特性,导致微调效果不佳。
核心思路:论文的核心思路是使PEFT过程能够感知噪声水平。通过引入一个以噪声水平为条件的超网络,动态生成低秩更新矩阵,从而使模型能够根据不同的噪声水平调整参数,更好地适应扩散过程的内在动态。
技术框架:NaRA框架主要包含一个轻量级的全局共享超网络和一个低秩核心矩阵。超网络以噪声水平作为输入,生成低秩核心矩阵。该核心矩阵用于更新dLLMs中的参数。整个框架可以嵌入到现有的PEFT流程中,实现噪声感知的参数高效微调。
关键创新:NaRA的关键创新在于引入了噪声感知机制,使得更新矩阵能够沿着扩散过程连续变化。与传统的噪声无关的PEFT方法相比,NaRA能够更好地捕捉dLLMs在去噪过程中的动态特性,从而提升微调效果。
关键设计:NaRA的关键设计包括:1) 使用轻量级超网络,以减少参数开销和延迟;2) 使用全局共享的超网络,以提高参数利用率;3) 以噪声水平作为超网络的输入,实现噪声感知;4) 使用低秩矩阵进行参数更新,以保证参数高效性。损失函数沿用标准的训练方式,没有特别的设计。
🖼️ 关键图片
📊 实验亮点
实验结果表明,NaRA在常识推理、数学推理和代码生成等任务上均取得了显著的性能提升。例如,在某些任务上,NaRA相比于传统的LoRA方法,性能提升超过5%。这些结果验证了NaRA的有效性,证明了噪声感知对于扩散语言模型微调的重要性。
🎯 应用场景
NaRA可应用于各种需要利用扩散语言模型进行生成任务的场景,例如文本生成、图像生成、代码生成等。该方法能够提升生成质量,尤其是在需要处理复杂推理或对噪声敏感的任务中。此外,NaRA的参数高效性使其更易于部署到资源受限的设备上,具有广泛的应用前景。
📄 摘要(原文)
Diffusion Large Language Models (dLLMs) have emerged as a promising non-autoregressive generative paradigm. Given the prohibitive computational cost of full fine-tuning, Parameter-Efficient Fine-Tuning (PEFT) has become the standard approach. However, existing PEFT methods (e.g., LoRA), originally tailored for autoregressive models, rely on static parameters that are agnostic to the noise level. Consequently, they ignore the intrinsic dynamics of the diffusion process, where input distributions and generation difficulty shift significantly along the denoising trajectory, rendering them suboptimal for dLLMs. To address this, we propose Noise-aware Low-Rank Adaptation (NaRA), which introduces a low-rank core matrix generated by a lightweight, globally shared hypernetwork conditioned on the noise level. This design enables the update matrices to vary continuously along the diffusion process while keeping parameter and latency overhead negligible. We provide a theoretical justification for the proposed NaRA framework and empirically demonstrate consistent improvements over noise-agnostic baselines across commonsense reasoning, mathematical reasoning, and code generation benchmarks. Our code is available at https://github.com/generaldi/NaRA.