LoRA-PAR: A Flexible Dual-System LoRA Partitioning Approach to Efficient LLM Fine-Tuning

📄 arXiv: 2507.20999v3 📥 PDF

作者: Yining Huang, Bin Li, Keke Tang, Meilian Chen

分类: cs.LG, cs.CL

发布日期: 2025-07-28 (更新: 2025-09-16)

备注: 12 pages


💡 一句话要点

LoRA-PAR:一种灵活的双系统LoRA划分方法,用于高效LLM微调

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 参数高效微调 LLM微调 LoRA 双系统 强化学习 监督学习 思维链 模型优化

📋 核心要点

  1. 现有PEFT方法在针对不同响应需求定制数据和参数方面存在不足,主要集中于领域自适应或逐层分配。
  2. LoRA-PAR通过模拟人类的“快思慢想”双系统,将LLM参数划分为擅长直觉和逻辑推理两部分,并分别进行优化。
  3. 实验结果表明,LoRA-PAR在降低活跃参数使用量的同时,能够达到或超过现有SOTA PEFT方法的性能。

📝 摘要(中文)

DeepSeek-R1和OpenAI-O1等大规模生成模型受益于思维链(CoT)推理,但提升其性能通常需要海量数据、大型模型和全参数微调。参数高效微调(PEFT)有助于降低成本,但现有方法主要解决领域自适应或逐层分配,而非根据不同的响应需求定制数据和参数。受“快思慢想”的启发,我们将LLM参数的不同“子区域”类比为分别擅长快速直觉响应和需要多步骤逻辑推理的任务。因此,我们提出了LoRA-PAR,一个双系统LoRA框架,通过系统1或系统2的需求来划分数据和参数,为每个任务使用更少但更集中的参数。具体来说,我们通过多模型角色扮演和投票来分类任务数据,并基于重要性评分来划分参数,然后采用两阶段微调策略:使用监督微调(SFT)训练系统1任务以增强知识和直觉,并使用强化学习(RL)优化系统2任务以加强更深层次的逻辑推理。大量实验表明,两阶段微调策略SFT和RL降低了活跃参数的使用,同时匹配或超过了SOTA PEFT基线。

🔬 方法详解

问题定义:现有参数高效微调方法(PEFT)虽然降低了计算成本,但未能充分利用LLM内部不同参数子区域的特性,无法根据任务的不同需求(例如,快速直觉响应 vs. 多步骤逻辑推理)进行针对性优化。这导致参数利用率不高,且可能影响模型性能。

核心思路:借鉴人类认知中的“快思慢想”双系统理论,将LLM的参数划分为两个系统:系统1(快速、直觉)和系统2(慢速、逻辑)。针对不同类型的任务,分别优化对应的参数子集,从而提高参数利用率和模型性能。

技术框架:LoRA-PAR框架包含以下几个主要阶段:1) 数据分类:使用多模型角色扮演和投票机制,将训练数据划分为系统1和系统2两类。2) 参数划分:基于重要性评分,将LoRA参数划分为对应于系统1和系统2的两个子集。3) 两阶段微调:首先使用监督微调(SFT)训练系统1任务,增强知识和直觉;然后使用强化学习(RL)优化系统2任务,加强逻辑推理能力。

关键创新:LoRA-PAR的核心创新在于其双系统参数划分和两阶段微调策略。它首次将人类认知中的双系统理论引入到LLM微调中,并根据任务类型和参数重要性进行精细化的参数划分和优化。这种方法能够更有效地利用LLM的参数,提高模型在不同类型任务上的性能。

关键设计:数据分类阶段,采用多模型投票机制,提高分类的准确性。参数划分阶段,使用重要性评分来确定哪些LoRA参数对系统1和系统2的任务更重要。两阶段微调中,SFT用于快速学习知识,RL用于提升逻辑推理能力。具体损失函数和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LoRA-PAR在降低活跃参数使用量的同时,能够匹配或超过现有SOTA PEFT方法的性能。具体性能数据和对比基线未在摘要中详细说明,属于未知信息。但总体而言,该方法在参数效率和模型性能之间取得了良好的平衡。

🎯 应用场景

LoRA-PAR可应用于各种需要LLM进行快速响应和复杂推理的场景,例如智能客服、问答系统、代码生成等。通过针对性地优化LLM的不同参数子集,可以提高模型的效率和准确性,降低计算成本,并提升用户体验。该方法在资源受限的环境下具有重要意义。

📄 摘要(原文)

Large-scale generative models like DeepSeek-R1 and OpenAI-O1 benefit substantially from chain-of-thought (CoT) reasoning, yet pushing their performance typically requires vast data, large model sizes, and full-parameter fine-tuning. While parameter-efficient fine-tuning (PEFT) helps reduce cost, most existing approaches primarily address domain adaptation or layer-wise allocation rather than explicitly tailoring data and parameters to different response demands. Inspired by "Thinking, Fast and Slow," which characterizes two distinct modes of thought-System 1 (fast, intuitive, often automatic) and System 2 (slower, more deliberative and analytic)-we draw an analogy that different "subregions" of an LLM's parameters might similarly specialize for tasks that demand quick, intuitive responses versus those requiring multi-step logical reasoning. Therefore, we propose LoRA-PAR, a dual-system LoRA framework that partitions both data and parameters by System 1 or System 2 demands, using fewer yet more focused parameters for each task. Specifically, we classify task data via multi-model role-playing and voting, and partition parameters based on importance scoring, then adopt a two-stage fine-tuning strategy of training System 1 tasks with supervised fine-tuning (SFT) to enhance knowledge and intuition and refine System 2 tasks with reinforcement learning (RL) to reinforce deeper logical deliberation next. Extensive experiments show that the two-stage fine-tuning strategy, SFT and RL, lowers active parameter usage while matching or surpassing SOTA PEFT baselines.