CurvZO: Adaptive Curvature-Guided Sparse Zeroth-Order Optimization for Efficient LLM Fine-Tuning

📄 arXiv: 2603.21725v1 📥 PDF

作者: Shuo Wang, Ziyu Chen, Ming Tang

分类: cs.AI, cs.LG

发布日期: 2026-03-23


💡 一句话要点

CurvZO:自适应曲率引导的稀疏零阶优化,用于高效LLM微调

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 零阶优化 稀疏优化 曲率估计 高效微调

📋 核心要点

  1. 现有LLM微调方法依赖反向传播,内存开销大,限制了在资源受限设备上的应用。
  2. CurvZO通过在线跟踪曲率信息,指导稀疏零阶优化,降低梯度估计方差,提高收敛速度。
  3. 实验表明,CurvZO在多个NLP任务上优于现有零阶优化方法,显著提升精度并加速训练。

📝 摘要(中文)

使用反向传播微调大型语言模型(LLMs)可以获得高性能,但会产生大量的内存开销,限制了在资源受限硬件上的可扩展性。零阶(ZO)优化提供了一种内存高效的替代方案,它仅依赖于前向传递,但由于高方差的梯度估计,通常会遭受缓慢或不稳定的收敛。稀疏ZO更新通过仅扰动参数的子集来部分解决这个问题,但它们的有效性取决于选择信息量大的参数,这在ZO优化中具有挑战性,因为每次查询仅产生标量反馈。我们提出了 extbf{自适应曲率引导的稀疏零阶优化(CurvZO)},它从标量ZO反馈在线跟踪曲率信号,并利用这些信号构建参数化的采样分布,以选择每次更新的坐标,从而降低稀疏ZO梯度估计器的方差。此外,CurvZO动态地调整扰动预算以适应不断变化的曲率信号分布,从而产生既集中又具有足够探索性的稀疏ZO更新。在OPT和Llama上跨各种NLP任务进行的大量实验表明,CurvZO始终提高微调性能并减少ZO基线的训练时间。它将准确率提高了高达4.4个百分点,并实现了高达2倍的加速,同时保持了内存效率。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)微调过程中,使用反向传播算法带来的巨大内存开销问题。现有的零阶优化方法虽然内存效率高,但由于梯度估计方差大,导致收敛速度慢且不稳定,难以达到理想的微调效果。稀疏零阶优化尝试只更新部分参数,但如何选择有信息的参数进行更新是一个挑战,因为每次零阶查询只返回一个标量反馈。

核心思路:CurvZO的核心思路是利用零阶反馈在线估计参数空间的曲率信息,并利用这些曲率信息来指导稀疏更新过程中参数的选择。通过关注曲率较大的参数,可以更有效地降低梯度估计的方差,从而加速收敛并提高微调性能。此外,CurvZO还动态调整扰动预算,平衡探索和利用,进一步提升优化效率。

技术框架:CurvZO的整体框架包括以下几个主要步骤:1) 使用零阶优化进行前向传播,获取标量反馈;2) 基于标量反馈在线估计参数空间的曲率信息;3) 利用估计的曲率信息构建参数化的采样分布,用于选择每次更新的参数子集;4) 根据曲率信号动态调整扰动预算,控制稀疏更新的强度;5) 使用选定的参数子集进行更新。

关键创新:CurvZO的关键创新在于提出了一种自适应的曲率引导稀疏零阶优化方法。与传统的稀疏零阶优化方法相比,CurvZO能够在线估计参数空间的曲率信息,并利用这些信息来指导参数的选择,从而更有效地降低梯度估计的方差。此外,CurvZO还能够动态调整扰动预算,平衡探索和利用,进一步提升优化效率。与反向传播相比,CurvZO无需计算梯度,显著降低了内存开销。

关键设计:CurvZO的关键设计包括:1) 使用标量反馈在线估计曲率信息的算法;2) 基于曲率信息构建参数化采样分布的策略;3) 动态调整扰动预算的机制。具体的曲率估计方法和采样分布的设计可能涉及到一些超参数的设置,例如曲率估计的平滑系数、采样分布的温度参数等。损失函数仍然是根据具体的下游任务来选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CurvZO在OPT和Llama等大型语言模型上,针对多种NLP任务,相比于现有的零阶优化方法,能够显著提高微调性能并减少训练时间。具体而言,CurvZO在准确率上提升高达4.4个百分点,并实现了高达2倍的加速,同时保持了内存效率。这些结果验证了CurvZO在高效LLM微调方面的有效性。

🎯 应用场景

CurvZO适用于资源受限的场景下对大型语言模型进行高效微调。例如,在边缘设备或移动设备上部署LLM时,由于内存和计算资源的限制,无法使用传统的反向传播进行微调。CurvZO可以作为一种替代方案,在保证性能的同时,显著降低内存开销,使得LLM能够在这些设备上进行个性化定制和应用。该方法还有潜力应用于其他需要大规模参数优化的机器学习任务中。

📄 摘要(原文)

Fine-tuning large language models (LLMs) with backpropagation achieves high performance but incurs substantial memory overhead, limiting scalability on resource-constrained hardware. Zeroth-order (ZO) optimization provides a memory-efficient alternative by relying solely on forward passes, yet it typically suffers from slow or unstable convergence due to high-variance gradient estimates. Sparse ZO updates partially address this issue by perturbing only a subset of parameters, but their effectiveness hinges on selecting informative parameters, which is challenging in ZO optimization because each query yields only scalar feedback. We propose \textbf{Adaptive Curvature-Guided Sparse Zeroth-Order Optimization (CurvZO)}, which tracks curvature signals online from scalar ZO feedback and leverages these signals to construct a parameter-wise sampling distribution for selecting coordinates at each update, reducing the variance of the sparse ZO gradient estimator. Moreover, CurvZO dynamically adapts the perturbation budget to the evolving curvature signal distribution, yielding sparse ZO updates that remain both focused and sufficiently exploratory. Extensive experiments on OPT and Llama across diverse NLP tasks show that CurvZO consistently improves fine-tuning performance and reduces training time over ZO baselines. It improves accuracy by up to 4.4 points and achieves up to a $2\times$ speedup, while preserving memory efficiency.