RDP LoRA: Geometry-Driven Identification for Parameter-Efficient Adaptation in Large Language Models
作者: Yusuf Çelebi, Yağız Asker, Özay Ezerceli, Mahmoud ElHussieni, Selva Taş, Reyhan Bayraktar, Fatma Betül Terzioğlu
分类: cs.LG, cs.AI, cs.CL, cs.CV
发布日期: 2026-04-21
💡 一句话要点
RDP LoRA:基于几何驱动的大语言模型参数高效微调方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 参数高效微调 LoRA 几何分析 RDP算法
📋 核心要点
- 现有参数高效微调方法对LLM内部表征的层特定作用理解不足,导致层选择具有不确定性。
- 提出基于RDP算法的几何感知层选择策略,利用隐藏状态轨迹的几何结构来确定需要微调的层。
- 实验表明,该方法在Qwen3-8B-Base上仅微调13层就超越了全层微调和其他层选择策略。
📝 摘要(中文)
尽管诸如LoRA等参数高效方法被广泛应用,但微调大型语言模型(LLM)在结构上仍然存在不确定性,因为对内部表征的层特定作用理解不足,导致关于应该应用自适应的位置的决策是启发式的。我们把隐藏状态的演变建模为高维几何轨迹,并提出使用Ramer-Douglas-Peucker (RDP)算法,这是一种无参数和无训练的多边形简化方法,它保留了全局结构转换,同时消除了局部冗余变化,以识别表示路径上的关键断点。至关重要的是,我们使用这些几何枢轴不仅仅用于分析,而是作为直接的决策信号,用于确定在参数高效微调期间应该适应哪些层。通过将这种几何感知层选择策略集成到Qwen3-8B-Base的LoRA微调中,我们仅使用13个RDP选择的层就实现了MMLU-Math上的卓越性能(81.67%),显著优于完整的36层自适应(79.32%)和随机选择的13层(75.56%),以及基线Qwen3-8B-Base模型(74.25%)。这些结果表明,利用表示轨迹的内在几何结构为优化模型自适应期间的层选择提供了一个鲁棒、可解释和无训练的信号。
🔬 方法详解
问题定义:现有参数高效微调方法,如LoRA,在选择哪些层进行微调时缺乏明确的指导,通常依赖启发式方法或随机选择,导致性能不稳定且效率低下。核心问题在于缺乏对LLM内部表征在不同层中作用的深入理解。
核心思路:论文的核心思路是将LLM的隐藏状态演变过程视为高维几何空间中的轨迹。通过分析这条轨迹的几何结构,可以识别出关键的“转折点”,这些转折点对应于模型中重要的表征变化。选择包含这些转折点的层进行微调,可以更有效地提升模型性能。
技术框架:该方法主要包含以下几个步骤:1) 使用LLM处理输入数据,获取每一层的隐藏状态;2) 将每一层的隐藏状态视为高维空间中的一个点,从而得到一条轨迹;3) 使用Ramer-Douglas-Peucker (RDP)算法对轨迹进行简化,识别出关键的转折点;4) 选择包含这些转折点的层进行LoRA微调。
关键创新:该方法最重要的创新在于将几何分析引入到LLM的微调过程中。通过RDP算法,可以无参数、无训练地识别出模型中的关键层,从而实现更高效的参数微调。与现有方法相比,该方法提供了一种可解释、鲁棒的层选择策略。
关键设计:RDP算法的关键参数是距离阈值,用于控制轨迹简化的程度。论文中没有明确说明如何选择这个阈值,这可能需要根据具体任务进行调整。此外,该方法直接使用RDP选择的层进行LoRA微调,没有引入额外的损失函数或网络结构。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在Qwen3-8B-Base模型上,使用RDP选择的13层进行LoRA微调,在MMLU-Math数据集上取得了81.67%的准确率,显著优于全36层微调(79.32%)、随机选择13层(75.56%)以及原始模型(74.25%)。这证明了该方法在参数高效微调方面的有效性。
🎯 应用场景
该研究成果可应用于各种需要对大型语言模型进行定制化微调的场景,例如特定领域的文本生成、机器翻译、对话系统等。通过几何驱动的层选择策略,可以显著降低微调成本,提高模型性能,加速LLM在各行业的落地应用。
📄 摘要(原文)
Fine-tuning Large Language Models (LLMs) remains structurally uncertain despite parameter-efficient methods such as Low-Rank Adaptation (LoRA), as the layer-specific roles of internal representations are poorly understood, leading to heuristic decisions about where adaptation should be applied. We model the evolution of hidden states as a high-dimensional geometric trajectory and propose using the Ramer-Douglas-Peucker (RDP) algorithm, a parameter-free and training-free polygon simplification method that preserves global structural transitions while eliminating locally redundant changes, to identify critical breakpoints along the representation path. Crucially, we use these geometric pivots not merely for analysis, but as a direct decision signal for determining which layers should be adapted during parameter-efficient fine-tuning. By integrating this geometry-aware layer selection strategy into LoRA fine-tuning of Qwen3-8B-Base, we achieve superior performance on MMLU-Math using only 13 RDP-selected layers (81.67%), significantly outperforming both full 36-layer adaptation (79.32%) and random 13-layer selection (75.56%), as well as the baseline Qwen3-8B-Base model (74.25%). These results demonstrate that leveraging the intrinsic geometry of representation trajectories provides a robust, interpretable, and training-free signal for optimizing layer selection during model adaptation.