Compositional Subspace Representation Fine-tuning for Adaptive Large Language Models

📄 arXiv: 2503.10617v3 📥 PDF

作者: Andy Zhou

分类: cs.CL, cs.AI

发布日期: 2025-03-13 (更新: 2025-04-26)

备注: Accepted to ICLR 2025 SCOPE


💡 一句话要点

提出CS-ReFT,通过组合子空间表示微调自适应大语言模型,解决多任务学习中的技能冲突问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 多任务学习 子空间表示 微调 正交约束

📋 核心要点

  1. 现有方法在微调大语言模型以适应多任务时,容易出现技能间的相互干扰,导致性能下降。
  2. CS-ReFT通过学习多个正交子空间变换,每个变换对应一个技能,并在隐藏状态中进行编辑,从而隔离不同任务。
  3. 实验表明,CS-ReFT在AlpacaEval上超越GPT-3.5 Turbo,且参数开销极小,证明了其有效性。

📝 摘要(中文)

将大型语言模型适配到多个任务上可能导致跨技能干扰,即提高一项技能的同时会降低另一项技能的表现。虽然诸如LoRA之类的方法在权重层面施加了正交约束,但它们并未完全解决隐藏状态表示中的干扰问题。我们提出了一种新的基于表示的方法,即组合子空间表示微调(CS-ReFT),该方法学习多个正交子空间变换,每个变换专门针对不同的技能,并通过轻量级路由器组合它们。通过在隐藏状态中隔离这些子空间编辑,而不是在权重矩阵中,CS-ReFT可以更有效地防止跨任务冲突。在AlpacaEval基准测试中,将CS-ReFT应用于Llama-2-7B实现了93.94%的胜率,超过了GPT-3.5 Turbo(86.30%),同时仅需要0.0098%的模型参数。这些发现表明,通过简单路由器组合的专用表示编辑,可以以最小的开销显著增强多任务指令遵循能力。

🔬 方法详解

问题定义:现有的大型语言模型微调方法,如LoRA,虽然在权重层面施加了正交约束,试图减少任务间的干扰,但仍然无法完全解决隐藏状态表示中的跨技能干扰问题。这意味着模型在学习新任务时,可能会遗忘或降低原有任务的性能,尤其是在多任务学习场景下,这个问题更加突出。

核心思路:CS-ReFT的核心思路是将不同任务的知识表示隔离在不同的子空间中。通过学习多个正交的子空间变换,每个变换专门针对一个特定的技能或任务。这样,在进行任务切换时,模型可以通过选择不同的子空间变换来激活相应的知识,从而避免不同任务之间的干扰。这种方法类似于将不同的技能存储在不同的“抽屉”中,需要时才打开相应的抽屉。

技术框架:CS-ReFT的技术框架主要包含以下几个模块:1) 多个正交子空间变换模块,每个模块负责学习一个特定技能的表示;2) 一个轻量级的路由器,用于根据输入选择合适的子空间变换模块;3) 集成后的模型,将选择的子空间变换应用于隐藏状态,从而实现任务切换和知识组合。整个流程可以概括为:输入 -> 路由器 -> 子空间变换 -> 隐藏状态编辑 -> 输出。

关键创新:CS-ReFT最重要的创新点在于其基于表示的微调方法,与传统的基于权重的微调方法不同,CS-ReFT直接在隐藏状态的表示层面进行编辑,通过正交子空间变换来隔离不同任务的知识。这种方法能够更有效地防止跨任务干扰,并且只需要极少的参数开销。此外,轻量级路由器的设计也保证了模型的高效性和可扩展性。

关键设计:CS-ReFT的关键设计包括:1) 正交子空间变换模块的设计,需要保证学习到的子空间是正交的,以避免任务间的干扰;2) 路由器的设计,需要保证能够根据输入准确地选择合适的子空间变换模块;3) 损失函数的设计,需要同时考虑任务的性能和子空间的正交性。具体的参数设置和网络结构细节在论文中可能有所描述,但摘要中未提供详细信息,属于未知内容。

🖼️ 关键图片

fig_0

📊 实验亮点

CS-ReFT在AlpacaEval基准测试中取得了显著的成果,Llama-2-7B模型应用CS-ReFT后,胜率达到了93.94%,超过了GPT-3.5 Turbo的86.30%。同时,CS-ReFT仅需要0.0098%的模型参数,表明其在性能提升的同时,保持了极低的资源消耗。这些结果充分证明了CS-ReFT在多任务指令遵循方面的优越性。

🎯 应用场景

CS-ReFT具有广泛的应用前景,例如可以应用于多任务机器人控制、多语言机器翻译、以及个性化推荐系统等领域。通过将不同任务或技能的知识表示隔离在不同的子空间中,CS-ReFT可以有效地提高模型的泛化能力和鲁棒性,使其能够更好地适应复杂多变的应用场景。此外,CS-ReFT的低参数开销也使其非常适合部署在资源受限的设备上。

📄 摘要(原文)

Adapting large language models to multiple tasks can cause cross-skill interference, where improvements for one skill degrade another. While methods such as LoRA impose orthogonality constraints at the weight level, they do not fully address interference in hidden-state representations. We propose Compositional Subspace Representation Fine-tuning (CS-ReFT), a novel representation-based approach that learns multiple orthonormal subspace transformations, each specializing in a distinct skill, and composes them via a lightweight router. By isolating these subspace edits in the hidden state, rather than weight matrices, CS-ReFT prevents cross-task conflicts more effectively. On the AlpacaEval benchmark, applying CS-ReFT to Llama-2-7B achieves a 93.94% win rate, surpassing GPT-3.5 Turbo (86.30%) while requiring only 0.0098% of model parameters. These findings show that specialized representation edits, composed via a simple router, significantly enhance multi-task instruction following with minimal overhead.