Prior-Informed Zeroth-Order Optimization with Adaptive Direction Alignment for Memory-Efficient LLM Fine-Tuning

📄 arXiv: 2601.04710v1 📥 PDF

作者: Feihu Jin, Shipeng Cen, Ying Tan

分类: cs.CL, cs.LG

发布日期: 2026-01-08

备注: 12pages, 6figures


💡 一句话要点

提出先验引导的零阶优化方法,高效微调大规模语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零阶优化 大规模语言模型 模型微调 梯度估计 先验知识 自适应扰动 内存效率

📋 核心要点

  1. 大规模语言模型微调面临内存瓶颈,传统零阶优化梯度估计方差大,收敛慢。
  2. 提出先验引导的扰动方法,动态计算引导向量,使扰动指向更具信息量的方向。
  3. 实验表明,该方法能更快收敛,性能更优,在OPT-13B模型上超越传统零阶优化和梯度基线。

📝 摘要(中文)

微调大型语言模型(LLMs)在各种NLP任务中取得了显著成功,但反向传播期间的大量内存开销仍然是一个关键瓶颈,尤其是在模型规模增长时。零阶(ZO)优化通过前向传递和高斯采样来估计梯度,避免了反向传播,从而缓解了这个问题。然而,传统的ZO方法由于依赖随机扰动,导致梯度估计方差较高,从而导致收敛缓慢和性能欠佳。我们提出了一种简单的即插即用方法,该方法结合了先验引导的扰动来改进梯度估计。我们的方法动态地从高斯样本中计算引导向量,该向量将扰动导向更具信息量的方向,与标准ZO方法相比,显著加快了收敛速度。我们进一步研究了一种贪婪扰动策略,以探索先验知识对梯度估计的影响。从理论上讲,我们证明了我们的梯度估计器实现了与真实梯度方向更强的对齐,从而提高了优化效率。在不同规模和架构的LLM上进行的大量实验表明,我们提出的方法可以无缝地集成到现有的优化方法中,从而提供更快的收敛速度和卓越的性能。值得注意的是,在OPT-13B模型上,我们的方法在所有11个基准任务中均优于传统的ZO优化,并且在11个任务中的9个任务上超过了基于梯度的基线,从而在效率和准确性之间建立了稳健的平衡。

🔬 方法详解

问题定义:论文旨在解决大规模语言模型(LLM)微调过程中由于反向传播带来的巨大内存开销问题。传统的零阶(ZO)优化方法通过随机扰动估计梯度,避免了反向传播,但其梯度估计方差过高,导致收敛速度慢,性能不佳。

核心思路:论文的核心思路是利用先验知识来引导零阶优化中的扰动方向,从而降低梯度估计的方差,提高收敛速度和优化性能。通过动态计算一个引导向量,使扰动更有可能指向对优化有益的方向。

技术框架:该方法是一个即插即用的模块,可以集成到现有的优化算法中。其主要流程包括:1) 从高斯分布中采样多个扰动向量;2) 利用这些扰动向量进行前向传播,得到相应的损失值;3) 基于损失值动态计算一个引导向量,该向量代表了梯度可能存在的方向;4) 将扰动向量向引导向量的方向调整,使其更具信息量;5) 使用调整后的扰动向量估计梯度,并进行参数更新。

关键创新:该方法最重要的创新点在于引入了先验知识来指导零阶优化的扰动方向。与传统的随机扰动相比,先验引导的扰动能够更有效地探索参数空间,从而降低梯度估计的方差,提高优化效率。此外,论文还探索了一种贪婪扰动策略,进一步验证了先验知识对梯度估计的影响。

关键设计:关键设计包括:1) 引导向量的计算方式,论文中采用了一种基于高斯样本损失值的加权平均方法;2) 扰动向量的调整策略,论文中将扰动向量投影到引导向量的方向上,并进行归一化;3) 贪婪扰动策略,通过选择损失下降最大的扰动方向来进一步优化梯度估计。

📊 实验亮点

该方法在OPT-13B模型上进行了广泛的实验,结果表明,在所有11个基准任务中,该方法均优于传统的零阶优化方法。更重要的是,在11个任务中的9个任务上,该方法甚至超过了基于梯度的基线方法,这充分证明了该方法在效率和准确性之间取得了良好的平衡。实验结果表明,该方法能够显著加速LLM的微调过程,并提高模型的性能。

🎯 应用场景

该研究成果可广泛应用于大规模语言模型的低成本、高效微调,尤其适用于资源受限的场景,如边缘计算设备或内存容量有限的服务器。通过降低内存需求和加速收敛,该方法能够帮助研究人员和开发者更便捷地定制和部署LLM,从而推动自然语言处理技术在各个领域的应用,例如智能客服、文本生成、机器翻译等。

📄 摘要(原文)

Fine-tuning large language models (LLMs) has achieved remarkable success across various NLP tasks, but the substantial memory overhead during backpropagation remains a critical bottleneck, especially as model scales grow. Zeroth-order (ZO) optimization alleviates this issue by estimating gradients through forward passes and Gaussian sampling, avoiding the need for backpropagation. However, conventional ZO methods suffer from high variance in gradient estimation due to their reliance on random perturbations, leading to slow convergence and suboptimal performance. We propose a simple plug-and-play method that incorporates prior-informed perturbations to refine gradient estimation. Our method dynamically computes a guiding vector from Gaussian samples, which directs perturbations toward more informative directions, significantly accelerating convergence compared to standard ZO approaches. We further investigate a greedy perturbation strategy to explore the impact of prior knowledge on gradient estimation. Theoretically, we prove that our gradient estimator achieves stronger alignment with the true gradient direction, enhancing optimization efficiency. Extensive experiments across LLMs of varying scales and architectures demonstrate that our proposed method could seamlessly integrate into existing optimization methods, delivering faster convergence and superior performance. Notably, on the OPT-13B model, our method outperforms traditional ZO optimization across all 11 benchmark tasks and surpasses gradient-based baselines on 9 out of 11 tasks, establishing a robust balance between efficiency and accuracy.