AdaPaD: Adaptive Parallel Deflation for PEFT with Self-Correcting Rank Discovery
作者: Barbara Su, Fangshuo Liao, Anastasios Kyrillidis
分类: cs.LG
发布日期: 2026-05-11
💡 一句话要点
提出AdaPaD自适应并行降维方法,实现大模型参数高效微调中的动态秩发现与自校正训练。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 参数高效微调 大语言模型 低秩适应 动态秩发现 模型压缩 并行优化
📋 核心要点
- 现有LoRA微调方法需预设秩,顺序提取会导致误差永久固化,而联合优化则难以精确控制单个秩-1分量的更新方向。
- AdaPaD通过并行训练所有秩-1分量,利用自校正机制使降维误差随训练迭代收敛,并结合动态秩发现实现参数高效分配。
- 实验证明AdaPaD在保持模型性能的同时,显著降低了适配器参数量,在GLUE和SQuAD任务中表现出优异的竞争力和灵活性。
📝 摘要(中文)
使用LoRA微调大语言模型时,通常需预设秩r。现有方法要么顺序提取秩-1分量,导致误差累积;要么联合优化全低秩分解,缺乏对单个秩-1方向的明确保证。本文提出AdaPaD(自适应并行降维),通过并行训练所有秩-1分量,使每个工作单元针对由其他分量最新估计值构建的降维目标进行优化。该方法具备“自校正”特性,即降维误差随训练轮次收敛至零,而非固化为残差。此外,AdaPaD引入了预激活学习和基于重要性的模块级动态秩发现,使秩分布成为训练输出而非输入。理论证明了误差的指数级衰减及泛化界限。实验表明,AdaPaD在GLUE基准上与自适应秩LoRA基线相当,并在Qwen3-0.6B模型上以平均小30.7%的适配器规模达到与固定秩LoRA相当的性能。
🔬 方法详解
问题定义:现有LoRA微调方法面临“秩选择困难”与“误差累积”的双重挑战。顺序提取方法(如奇异值分解类)将早期误差永久锁定在后续残差中,而联合优化方法则缺乏对单个秩-1分量收敛性的明确控制。
核心思路:AdaPaD引入并行降维框架,将所有秩-1分量视为协同进化的个体。通过构建基于其他分量最新估计的动态降维目标,实现误差的实时修正,从而避免了传统顺序方法中的误差固化问题。
技术框架:整体架构包含三个核心阶段:首先是并行训练所有秩-1分量;其次是利用“预激活学习”在正式启用前进行私有预训练;最后通过基于重要性的增长机制,在共享预算约束下动态调整各模块的秩分布。
关键创新:核心创新在于“自校正”机制,即降维目标随各分量估计值的提升而动态优化,确保了误差随训练轮次指数级衰减。此外,将秩分布从超参数转变为训练过程的自适应输出,极大地提升了模型配置的灵活性。
关键设计:该方法通过理论证明了泛化界限由消失的算法项和不可约的统计底限组成。在实现上,通过重要性评分驱动各模块秩的动态增长,直至达到预设的参数预算上限,从而实现计算资源的最优分配。
🖼️ 关键图片
📊 实验亮点
AdaPaD在GLUE基准测试中,以匹配的参数预算展现出与自适应秩LoRA相当的性能。在Qwen3-0.6B模型的SQuAD/SQuAD v2任务中,AdaPaD在保持同等精度的情况下,适配器参数量平均减少了30.7%,验证了其在参数效率与模型性能平衡上的显著优势。
🎯 应用场景
该研究适用于资源受限场景下的大语言模型微调,特别是在需要针对不同任务动态调整模型容量的边缘计算或多任务学习环境中。其动态秩发现能力可显著降低适配器存储开销,为轻量化部署提供技术支撑,未来有望在移动端AI及个性化模型定制中发挥重要作用。
📄 摘要(原文)
Fine-tuning large language models with LoRA requires choosing a rank r before training starts. Existing approaches either extract rank-1 components sequentially, freezing each component's error permanently into every subsequent residual, or optimize the full low-rank factorization jointly with guarantees that describe only the joint update, not individual rank-1 directions. We present AdaPaD (Adaptive Parallel Deflation), which trains all rank-1 components simultaneously: each worker refines its component against a deflation target built from the latest estimates of all predecessors, and as those estimates improve, the targets improve too. We call this property self-correction: deflation errors converge to zero over rounds rather than persisting as fixed residuals. On top of this backbone, AdaPaD adds advance learning (private pre-training before activation) and per-module dynamic rank discovery (importance-based growth until a shared budget is exhausted), making the rank distribution an output rather than an input. We prove that every component's error decays exponentially after a warm-up period, with a generalization bound that splits into a vanishing algorithmic term and an irreducible statistical floor. Empirically, AdaPaD is competitive with adaptive-rank LoRA baselines on GLUE with DeBERTaV3-base at matched parameter budgets, and competitive with fixed-rank LoRA on Qwen3-0.6B SQuAD/SQuAD v2 while deploying an adapter that is on average 30.7% smaller.