LoCO: Low-rank Compositional Rotation Fine-tuning

📄 arXiv: 2605.15916v1 📥 PDF

作者: An Nguyen, Jaesik Choi, Anh Tong

分类: cs.LG, cs.AI, cs.CV

发布日期: 2026-05-15

备注: IJCAI 2026


💡 一句话要点

提出LoCO,通过低秩组合正交微调提升参数高效微调的几何结构保持能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 低秩适应 正交变换 几何结构保持 组合旋转

📋 核心要点

  1. 现有参数高效微调方法难以保持预训练表示的几何结构,限制了模型性能。
  2. LoCO通过低秩斜对称矩阵和组合旋转链构建正交变换,保持几何结构。
  3. LoCO在扩散Transformer、视觉Transformer和语言模型等任务上表现优异。

📝 摘要(中文)

参数高效微调(PEFT)已成为跨自然语言处理和计算机视觉领域调整大规模基础模型的关键技术。现有的低秩适应等方法通过低秩权重更新实现参数效率,但它们在保持预训练表示的几何结构方面存在局限性。我们提出了一种新的PEFT方法——低秩组合正交微调(LoCO),该方法通过低秩斜对称矩阵和组合旋转链构建正交变换。我们提出了一种近似方案,可以完全并行地计算组合旋转,使该方法适用于高维特征空间。我们的方法在保持低计算复杂度的同时,保持了具有可控近似误差的正交性。我们在包括扩散Transformer微调、视觉Transformer适应和语言模型适应等不同领域验证了LoCO。与现有的正交和非正交方法相比,我们的方法表现出优越或具有竞争力的性能。

🔬 方法详解

问题定义:现有的参数高效微调(PEFT)方法,如低秩适应(Low-Rank Adaptation, LoRA),虽然通过低秩权重更新实现了参数效率,但在微调过程中,难以保持预训练模型所学习到的原始特征表示的几何结构。这种几何结构的破坏可能导致模型性能下降,尤其是在需要精确表示的任务中。因此,如何设计一种既能高效微调又能保持预训练模型几何结构的PEFT方法是一个关键问题。

核心思路:LoCO的核心思路是通过构建正交变换来保持预训练模型的几何结构。具体来说,LoCO利用低秩斜对称矩阵来参数化正交变换,并通过组合多个旋转变换来构建更复杂的正交变换。这种方法能够有效地控制微调过程中的几何形变,从而更好地保持预训练模型的原始特征表示。此外,LoCO还提出了一种近似方案,以实现组合旋转的并行计算,从而提高计算效率。

技术框架:LoCO的技术框架主要包括以下几个步骤:1) 使用低秩斜对称矩阵来参数化基本的旋转变换;2) 通过组合多个旋转变换来构建更复杂的正交变换;3) 使用提出的近似方案来并行计算组合旋转;4) 将构建的正交变换应用于预训练模型的权重更新中。整个框架旨在通过正交变换来约束微调过程,从而保持预训练模型的几何结构。

关键创新:LoCO的关键创新在于使用低秩斜对称矩阵和组合旋转链来构建正交变换。与传统的正交化方法相比,LoCO的方法具有更高的参数效率和更强的表达能力。此外,LoCO提出的近似方案能够实现组合旋转的并行计算,从而显著提高计算效率。这种并行计算能力使得LoCO能够应用于高维特征空间,从而扩展了其应用范围。

关键设计:LoCO的关键设计包括:1) 低秩斜对称矩阵的秩的选择,需要平衡参数效率和表达能力;2) 组合旋转链的长度,需要根据具体任务进行调整;3) 近似方案的精度控制,需要在计算效率和近似误差之间进行权衡;4) 正交变换的应用方式,可以选择直接替换原始权重,也可以选择作为附加的微调层。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LoCO在多个任务上取得了显著的实验结果。在扩散Transformer微调任务中,LoCO优于现有的正交和非正交方法。在视觉Transformer适应任务中,LoCO取得了与现有最佳方法相当的性能。在语言模型适应任务中,LoCO也表现出优越的性能。这些实验结果表明,LoCO能够有效地保持预训练模型的几何结构,从而提高模型在各种任务上的性能。

🎯 应用场景

LoCO具有广泛的应用前景,包括但不限于:图像生成、图像分类、目标检测、自然语言处理等领域。该方法可以用于微调各种预训练模型,如扩散模型、视觉Transformer和语言模型,从而提高模型在特定任务上的性能。此外,LoCO还可以应用于对几何结构敏感的任务,如三维重建、姿态估计等。LoCO的实际价值在于提高模型性能的同时,保持预训练模型的知识,从而减少对大量标注数据的依赖。未来,LoCO有望成为一种通用的参数高效微调方法。

📄 摘要(原文)

Parameter-efficient fine-tuning (PEFT) has emerged as an critical technique for adapting large-scale foundation models across natural language processing and computer vision. While existing methods such as low-rank adaptations achieve parameter efficiency via low-rank weight updates, they are limited in their ability to preserve the geometric structure of pretrained representations. We introduce Low-rank Compositional Orthogonal fine-tuning (LoCO), a novel PEFT method that constructs orthogonal transformations through low-rank skew-symmetric matrices and compositional rotation chains. We propose an approximation scheme that enables fully parallel computation of compositional rotations, making the approach practical for high-dimensional feature spaces. Our method maintains low computational complexity while maintaining orthogonality with controlled approximation error. We validate LoCO across diverse domains, including diffusion transformer fine-tuning, vision transformer adaptation, and language model adaptation. Our method demonstrates superior or competitive performance compared to both existing orthogonal and non-orthogonal methods.