GPart: End-to-End Isometric Fine-Tuning via Global Parameter Partitioning

📄 arXiv: 2605.14841v1 📥 PDF

作者: Paolo Mandica, Michał Brzozowski, Zuzanna Dubanowska, Neo Christopher Chung

分类: cs.LG, cs.AI

发布日期: 2026-05-14


💡 一句话要点

GPart:通过全局参数划分实现端到端等距微调,提升参数效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 等距映射 全局参数划分 低秩适应 大型语言模型

📋 核心要点

  1. LoRA等PEFT方法因其双线性结构,导致权重更新过程不保距,扭曲优化空间。
  2. GPart通过等距划分矩阵将低维可训练向量直接映射到完整权重空间,实现端到端保距。
  3. 实验表明,GPart在多个任务上性能优于或媲美现有PEFT方法,且参数效率更高。

📝 摘要(中文)

低秩适应(LoRA)已成为大型语言模型(LLM)参数高效微调(PEFT)的主流范式。然而,其双线性结构引入了一个关键限制:从可训练参数到权重更新的映射不是保距的,从而扭曲了优化空间。诸如Uni-LoRA等将低维向量投影到LoRA参数空间的方法提高了参数效率,但随后的双线性LoRA映射破坏了端到端等距性,使得核心的保距问题未得到解决。我们提出了GPart(全局划分微调),一种高度参数高效的微调方法,它完全消除了低秩瓶颈。我们的方法使用单个等距划分矩阵将一个d维可训练向量直接映射到模型的完整权重空间。最终形成了一个极其简洁的微调流程:一次随机投影,端到端等距,只有一个干净的超参数(d)和d+1个值的存储成本(可训练向量加上一个随机种子)。GPart建立在有效微调可以从完整权重空间的随机低维子空间中产生的理论前提之上,而无需施加低秩矩阵结构。我们通过实验证明了GPart在自然语言理解、计算机视觉任务和数学推理方面优于或可与现有PEFT方法相媲美的性能。总的来说,GPart通过消除结构约束实现了最先进的效率和性能,为PEFT提供了一条直接而优雅的路径。

🔬 方法详解

问题定义:现有参数高效微调方法(如LoRA)虽然减少了训练参数量,但由于其双线性结构,导致从可训练参数到权重更新的映射关系不保持距离,从而影响了优化过程,限制了模型的性能。这些方法无法保证端到端的等距性,即输入空间中的距离变化不能在输出空间中得到准确反映。

核心思路:GPart的核心思路是消除低秩瓶颈,直接将一个低维的可训练向量通过一个等距的划分矩阵映射到模型的完整权重空间。这样可以避免双线性结构带来的距离扭曲问题,保证端到端的等距性,从而更有效地利用可训练参数进行微调。

技术框架:GPart的整体框架非常简洁。首先,使用一个随机的等距划分矩阵将一个 d 维的可训练向量投影到模型的完整权重空间。然后,使用这个投影后的权重更新模型。整个过程只需要一个超参数 d (可训练向量的维度) 和一个随机种子。训练过程中,只需要优化这个 d 维的可训练向量。

关键创新:GPart最重要的创新在于它消除了低秩矩阵结构,直接在完整权重空间的低维子空间中进行优化。与LoRA等方法不同,GPart不依赖于低秩分解,而是通过等距投影保证了优化过程的保距性。这种方法简化了微调流程,提高了参数效率。

关键设计:GPart的关键设计在于等距划分矩阵的选择。论文中并没有明确指定如何生成这个矩阵,但强调了其等距性质,即能够保持向量之间的距离。此外,超参数 d 的选择也很重要,它决定了可训练参数的数量和模型的微调能力。损失函数和优化器可以根据具体的任务进行选择,GPart本身并不限制这些选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GPart在自然语言理解、计算机视觉和数学推理等多个任务上取得了优异的性能。实验结果表明,GPart在参数效率方面优于现有的PEFT方法,并且在某些任务上达到了甚至超过了全参数微调的性能。例如,在某些benchmark上,GPart仅使用少量参数就能够达到与LoRA相当甚至更好的性能。

🎯 应用场景

GPart具有广泛的应用前景,可用于各种需要参数高效微调的大型模型,例如大型语言模型、视觉Transformer等。其高效性和简洁性使其特别适用于资源受限的场景,如边缘计算设备或移动设备。此外,GPart的保距特性有助于提高模型在各种任务上的泛化能力。

📄 摘要(原文)

Low-rank adaptation (LoRA) has become the dominant paradigm for parameter-efficient fine-tuning (PEFT) of large language models (LLMs). However, its bilinear structure introduces a critical limitation: the mapping from trainable parameters to weight updates is not distance-preserving, distorting the optimization landscape. Methods that project a low-dimensional vector into LoRA's parameter space, such as Uni-LoRA, improve parameter efficiency, but the subsequent bilinear LoRA map breaks end-to-end isometry, leaving the core distance-preservation problem unresolved. We propose GPart (Global Partition fine-tuning), a highly parameter-efficient fine-tuning method which removes the low-rank bottleneck entirely. Our method uses a single isometric partition matrix to map a $d$-dimensional trainable vector directly into the full weight space of the model. The result is an extremely minimal fine-tuning pipeline: one random projection, end-to-end isometric, with a single clean hyperparameter ($d$) and storage cost of $d+1$ values (the trainable vector plus a random seed). GPart builds on the theoretical premise that effective fine-tuning can emerge from random low-dimensional subspaces of the full weight space, without imposing low-rank matrix structure. We empirically demonstrate the superior or comparable performance of GPart to existing PEFT methods on natural language understanding, computer vision tasks, and mathematical reasoning. Overall, GPart achieves state-of-the-art efficiency and performance by removing structural constraints, offering a straightforward and elegant path to PEFT.