On the Construction and Implications of Low-Loss Valleys in LoRA-based Bayesian Inference
作者: Daniel Dold, Emanuel Sommer, Julius Kobialka, Oliver Dürr, David Rügamer
分类: cs.LG, stat.ML
发布日期: 2026-05-28
💡 一句话要点
提出LoRA-Curve,探索LoRA空间中的低损耗路径,提升贝叶斯推理不确定性估计。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: LoRA微调 贝叶斯推理 不确定性估计 低损耗路径 贝塞尔曲线 模型集成 大型语言模型
📋 核心要点
- 现有LoRA微调方法在认知不确定性估计方面存在不足,深度集成等方法在LoRA空间中效果不佳。
- 提出LoRA-Curve,通过分段贝塞尔曲线连接LoRA空间中的独立最优点,探索低损耗路径。
- 实验表明,LoRA-Curve能有效连接独立最优点,提高预测分布的互信息,且不牺牲性能。
📝 摘要(中文)
尽管低秩适应(LoRA)等参数高效微调方法已成为大型语言模型的标准,但认知不确定性的原则性估计仍然具有挑战性。LoRA机制的最新结果表明,诸如深度集成之类的离散多模态方法相对于单模态方法几乎没有优势。这与深度学习中更广泛的观察结果相矛盾,在深度学习中,集成独立的优化通常会改善泛化,并通过连续的低损耗路径连接这些模式可以进一步增强贝叶斯模型平均(BMA)。LoRA空间中是否存在这种结构,以及它是否产生局部或离散方法遗漏的功能多样性尚未得到研究。我们引入了LoRA-Curve,这是一种LoRA空间中的分段贝塞尔曲线参数化方法,具有两种变体:一种是联合优化所有控制点的自由配置,另一种是连接独立微调的LoRA最优点的锚定配置。我们证明了沿曲线的损失的路径连续性和Lipschitz正则性,并通过Qwen2.5 7B的推理和分类基准经验表明,线性插值会遇到损失障碍,而我们的锚定多段曲线通过连续的低损耗路径连接独立的优化点。结合平坦最小值扰动和Jensen-Shannon散度正则化器,LoRA-Curve在不牺牲性能的情况下,可显著提高预测分布的互信息,并将连续参数空间遍历与功能多样性联系起来。
🔬 方法详解
问题定义:论文旨在解决LoRA微调框架下,如何有效估计模型认知不确定性的问题。现有方法,如直接使用深度集成,在LoRA空间中表现不佳,无法充分利用不同LoRA最优解之间的互补信息。线性插值等方法则会遇到损失障碍,难以找到连接不同最优解的低损耗路径。
核心思路:论文的核心思路是通过构建LoRA空间中的连续低损耗路径,将不同的LoRA最优解连接起来,从而实现更好的贝叶斯模型平均(BMA)。通过在参数空间中探索这些路径,可以发现并利用不同模型之间的功能多样性,从而提高不确定性估计的准确性。
技术框架:论文提出了LoRA-Curve,一种基于分段贝塞尔曲线的参数化方法。该方法包含两个主要变体:自由配置和锚定配置。自由配置联合优化所有控制点,而锚定配置则连接独立微调的LoRA最优点。此外,论文还结合了平坦最小值扰动和Jensen-Shannon散度正则化器,以进一步提高模型的多样性和泛化能力。
关键创新:LoRA-Curve的关键创新在于它提供了一种在LoRA空间中构建连续低损耗路径的方法。与线性插值等简单方法相比,LoRA-Curve能够更有效地连接不同的LoRA最优点,从而更好地探索模型的功能多样性。此外,结合平坦最小值扰动和Jensen-Shannon散度正则化器,进一步提升了模型的性能和不确定性估计的准确性。
关键设计:LoRA-Curve使用分段贝塞尔曲线来参数化LoRA空间中的路径。曲线的控制点可以通过优化算法进行调整,以最小化损失函数。锚定配置的关键在于选择合适的LoRA最优点作为锚点,并使用贝塞尔曲线将它们连接起来。Jensen-Shannon散度正则化器用于鼓励模型之间的多样性,防止模型坍塌到相同的解。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LoRA-Curve在Qwen2.5 7B模型上,通过推理和分类基准测试,能够有效连接独立最优点,显著提高预测分布的互信息,且不牺牲性能。与线性插值相比,LoRA-Curve能够找到更优的低损耗路径,从而实现更好的贝叶斯模型平均。
🎯 应用场景
该研究成果可应用于各种需要可靠不确定性估计的自然语言处理任务,例如风险评估、医疗诊断和金融预测。通过提高模型不确定性估计的准确性,可以做出更明智的决策,并降低潜在风险。此外,该方法还可以推广到其他参数高效微调方法和模型架构。
📄 摘要(原文)
While parameter-efficient fine-tuning methods like low-rank adaptation (LoRA) are standard for large language models, principled estimation of epistemic uncertainty remains challenging. Recent results in the LoRA regime suggest that discrete multi-mode approaches such as deep ensembles offer little benefit over single-mode methods. This contradicts broader observations in deep learning, where ensembling independent optima typically improves generalization, and linking these modes through continuous low-loss valleys further enhances Bayesian model averaging (BMA). Whether such structure exists in the LoRA space and whether it yields functional diversity missed by local or discrete methods has not been studied. We introduce LoRA-Curve, a segmented Bézier curve parameterization in the LoRA space, with two variants: a free configuration that jointly optimizes all control points, and an anchored configuration that connects independently fine-tuned LoRA optima. We prove pathwise continuity and Lipschitz regularity of the loss along the curve and empirically show, across reasoning and classification benchmarks with Qwen2.5 7B, that linear interpolation encounters loss barriers, while our anchored multi-segment curves connect independent optima through continuous low-loss valleys. Combined with flat-minima perturbations and a Jensen-Shannon divergence regularizer, LoRA-Curve yields measurably higher mutual information of the predictive distribution without sacrificing performance, and links continuous parameter-space traversal to functional diversity.