HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Generalization

作者: Ziyi Han, Huanyu Wang, Zeyu Zhang, Xiangxiang Dai, Xutong Liu, John C. S. Lui

分类: cs.LG, cs.AI

发布日期: 2025-10-14

💡 一句话要点

提出HiLoRA，一种免训练的自适应分层LoRA路由框架，用于领域泛化。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 领域泛化 低秩适应 LoRA 自适应路由 分层路由

📋 核心要点

现有领域泛化方法依赖任务标签或额外训练，不适用于实际部署，且固定数量的LoRA激活导致参数冗余或不足。
HiLoRA通过自适应分层路由LoRA池，在序列级别选择LoRA子集并分配ROC，在token级别激活信息量最大的ROC。
实验表明，HiLoRA在领域泛化上显著提升，准确率最高提升55%，同时保持了相当的推理速度，并有理论保证。

📝 摘要（中文）

低秩适应(LoRA)已成为一种广泛使用的技术，用于将大型语言模型(LLM)适应到新的领域，这归功于其模块化设计和在HuggingFace等平台上的广泛可用性。这种可用性激发了重用现有LoRA以进行领域泛化的努力。然而，现有方法通常依赖于显式的任务标签或额外的训练，这在部署中是不切实际的。此外，它们通常激活固定数量的完整LoRA模块，导致参数冗余或不足，从而降低性能。在本文中，我们提出了HiLoRA，一个免训练的框架，它在LoRA池上执行自适应分层路由。借鉴LoRA的结构特性，我们定义了秩一分量(ROC)，其中每个秩参数被视为一个独立的单元。对于给定的输入序列，HiLoRA首先自适应地选择LoRA的子集，并基于序列级别的高斯似然确定它们的ROC分配。在token级别，它通过仅激活信息量最大的ROC来进一步细化路由。我们进一步提供了理论保证，即HiLoRA以高概率选择最相关的LoRA。大量的实验表明，HiLoRA在领域泛化方面取得了显著的改进，与最先进的基线相比，准确率提高了高达55%，同时保持了相当的推理吞吐量。

🔬 方法详解

问题定义：论文旨在解决领域泛化问题，即如何利用已有的、针对特定领域训练的LoRA模块，在无需额外训练或任务标签的情况下，提升模型在新领域的性能。现有方法的痛点在于需要额外的训练或任务标签，这在实际部署中不切实际，并且固定数量的LoRA模块激活方式会导致参数冗余或不足，影响性能。

核心思路：论文的核心思路是利用LoRA的结构特性，将每个LoRA模块分解为更细粒度的秩一分量(ROC)，并设计一种自适应的分层路由机制，根据输入序列的特征，动态地选择和激活最相关的LoRA模块和ROC。这种方法避免了固定激活带来的冗余，并能更有效地利用已有的LoRA知识。

技术框架：HiLoRA框架包含两个主要阶段：序列级别的LoRA选择和ROC分配，以及token级别的ROC激活。在序列级别，框架首先计算输入序列与每个LoRA模块的相似度，并基于高斯似然选择最相关的LoRA子集。然后，为每个选定的LoRA模块分配ROC。在token级别，框架进一步细化路由，仅激活信息量最大的ROC。

关键创新：HiLoRA的关键创新在于其自适应的分层路由机制，以及将LoRA模块分解为ROC的细粒度处理方式。与现有方法相比，HiLoRA无需额外训练或任务标签，能够动态地选择和激活最相关的LoRA模块和ROC，从而更有效地利用已有的LoRA知识。

关键设计：在序列级别，HiLoRA使用高斯似然来衡量输入序列与每个LoRA模块的相似度。具体来说，它计算输入序列的均值和方差，并将其与每个LoRA模块的均值和方差进行比较。在token级别，HiLoRA使用注意力机制来选择信息量最大的ROC。具体来说，它计算每个ROC对当前token的贡献，并选择贡献最大的ROC进行激活。

🖼️ 关键图片

fig_0

fig_1

fig_2

📊 实验亮点

HiLoRA在领域泛化任务上取得了显著的性能提升，与最先进的基线方法相比，准确率最高提升了55%。实验结果表明，HiLoRA能够有效地选择和激活最相关的LoRA模块和ROC，从而提升模型在新领域的性能。同时，HiLoRA保持了与基线方法相当的推理吞吐量，证明了其在实际应用中的可行性。

🎯 应用场景

HiLoRA框架可广泛应用于自然语言处理领域，尤其是在需要快速适应新领域或任务的场景下。例如，可以将预训练的LoRA模块用于特定行业的文本生成、情感分析或信息抽取，而无需重新训练整个模型。该方法还可用于跨语言迁移学习，利用已有的其他语言的LoRA模块来提升目标语言的性能。

📄 摘要（原文）

Low-Rank Adaptation (LoRA) has emerged as a widely used technique for adapting large language models (LLMs) to new domains, due to its modular design and broad availability on platforms such as HuggingFace. This availability has motivated efforts to reuse existing LoRAs for domain generalization. However, existing methods often rely on explicit task labels or additional training, which are impractical for deployment. Moreover, they typically activate a fixed number of entire LoRA modules, leading to parameter redundancy or insufficiency that degrade performance. In this paper, we propose \texttt{HiLoRA}, a training-free framework that performs adaptive hierarchical routing over LoRA pools. Drawing on structural properties of LoRA, we define rank-one components (ROCs), in which each rank parameter is regarded as an independent unit. For a given input sequence, \texttt{HiLoRA} first adaptively selects a subset of LoRAs and determines their ROC allocation based on Gaussian likelihoods at the sequence level. At the token level, it further refines routing by activating only the most informative ROCs. We further provide theoretical guarantees that \texttt{HiLoRA} selects the most relevant LoRAs with high probability. Extensive experiments show that \texttt{HiLoRA} achieves substantial improvements in domain generalization, with accuracy gains of up to {\small $55\%$} over state-of-the-art baselines, while maintaining comparable inference throughput.