Decomposing the Basic Abilities of Large Language Models: Mitigating Cross-Task Interference in Multi-Task Instruct-Tuning

作者: Bing Wang, Ximing Li, Changchun Li, Jinjin Chi, Gang Niu, Masashi Sugiyama

分类: cs.CL, cs.AI

发布日期: 2026-05-07

备注: Accepted by ICML 2026. 25 pages, 13 figures. Code: https://github.com/wangbing1416/BADIT

💡 一句话要点

提出BADIT框架：通过基本能力分解与正交化LoRA专家缓解多任务指令微调中的跨任务干扰

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 指令微调 多任务学习 参数高效微调 LoRA 梯度冲突 模型解耦

📋 核心要点

现有指令微调方法虽尝试隔离参数，但因大量参数在任务间共享，导致梯度冲突引发的跨任务干扰问题依然显著。
BADIT提出将LLM能力分解为正交的LoRA专家，假设任务是这些基本能力的线性组合，通过动态正交约束实现解耦。
在SuperNI基准测试中，BADIT在6种主流LLM上均表现出优于现有SOTA的性能，有效提升了多任务学习的稳定性和效果。

📝 摘要（中文）

近年来，大语言模型（LLMs）的卓越表现主要得益于多任务指令微调。然而，该训练范式面临“跨任务干扰”这一关键问题，即不同任务在共享参数上产生冲突梯度。现有方法（如任务特定神经元选择或混合专家模型）虽试图通过隔离参数来缓解此问题，但研究发现，由于大量参数仍被不同任务共享，干扰依然存在。为此，本文提出了一种名为“多任务指令微调的基本能力分解”（BADIT）的新方法。研究发现，模型参数存在一致性共激活现象，并自然组织为基础组。据此，BADIT将LLM参数分解为代表基本能力的“正交高奇异值LoRA专家”，并通过秩-1分量的球形聚类在训练中动态强制执行正交性。在SuperNI基准测试中，基于6种LLM的广泛实验表明，BADIT优于现有SOTA方法，并有效降低了跨任务干扰程度。

🔬 方法详解

问题定义：论文旨在解决多任务指令微调（Multi-task Instruct-Tuning）中的跨任务干扰问题。现有方法如MoE或参数隔离技术，由于无法彻底消除共享参数带来的梯度冲突，导致模型在处理多样化任务时性能受限。

核心思路：研究者提出“基本能力分解”假设，认为LLM内部编码了若干正交的基本能力，任何复杂任务均可表示为这些能力的线性组合。通过将LoRA专家映射为这些基本能力，并强制其正交，可以从源头上解耦任务间的参数依赖。

技术框架：BADIT框架将预训练模型的权重冻结，引入多个LoRA专家模块。在训练过程中，通过对LoRA的秩-1分量进行分析，识别并聚类共激活参数，构建出代表不同基本能力的专家空间。

关键创新：引入了基于球形聚类（Spherical Clustering）的动态正交化机制。与传统MoE不同，BADIT不仅是选择专家，而是通过数学约束确保不同专家在参数空间上的正交性，从而最大程度减少任务间的梯度干扰。

关键设计：核心技术细节包括：1. 提取高奇异值LoRA分量以捕捉核心能力；2. 采用球形聚类算法对秩-1分量进行分组；3. 在损失函数中加入正交性正则化项，确保在训练过程中专家空间始终保持正交，防止能力坍缩或重叠。

🖼️ 关键图片

📊 实验亮点

实验在SuperNI基准测试上对6种不同规模的LLM进行了验证。结果显示，BADIT在多任务场景下显著优于LoRA、MoE等基线方法，不仅提升了任务平均准确率，还通过梯度分析证实了其在降低跨任务干扰方面的有效性，展现了更强的任务泛化能力。

🎯 应用场景

该方法适用于需要同时处理多种复杂指令任务的通用大模型训练场景。在构建多领域专家模型、提升模型指令遵循能力以及减少多任务训练中的“灾难性遗忘”方面具有重要价值。未来可广泛应用于企业级定制化模型微调及多模态指令学习领域。

📄 摘要（原文）

Recently, the prominent performance of large language models (LLMs) has been largely driven by multi-task instruct-tuning. Unfortunately, this training paradigm suffers from a key issue, named cross-task interference, due to conflicting gradients over shared parameters among different tasks. Some previous methods mitigate this issue by isolating task-specific parameters, e.g., task-specific neuron selection and mixture-of-experts. In this paper, we empirically reveal that the cross-task interference still exists for the existing solutions because of many parameters also shared by different tasks, and accordingly, we propose a novel solution, namely Basic Abilities Decomposition for multi-task Instruct-Tuning (BADIT). Specifically, we empirically find that certain parameters are consistently co-activated, and that co-activated parameters naturally organize into base groups. This motivates us to analogize that LLMs encode several orthogonal basic abilities, and that any task can be represented as a linear combination of these abilities. Accordingly, we propose BADIT that decomposes LLM parameters into orthogonal high-singular-value LoRA experts representing basic abilities, and dynamically enforces their orthogonality during training via spherical clustering of rank-1 components. We conduct extensive experiments on the SuperNI benchmark with 6 LLMs, and empirical results demonstrate that BADIT can outperform SOTA methods and mitigate the degree of cross-task interference.

Decomposing the Basic Abilities of Large Language Models: Mitigating Cross-Task Interference in Multi-Task Instruct-Tuning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理