BandiK: Efficient Multi-Task Decomposition Using a Multi-Bandit Framework
作者: András Millinghoffer, András Formanek, András Antos, Péter Antal
分类: cs.LG, cs.AI
发布日期: 2025-12-31
备注: 8 pages, 14 figures
💡 一句话要点
BandiK:利用多臂老虎机框架实现高效的多任务分解
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多任务学习 辅助任务选择 多臂老虎机 迁移学习 神经网络
📋 核心要点
- 多任务学习中选择合适的辅助任务集面临计算成本高、候选集数量庞大和任务间选择复杂性差异等挑战。
- BandiK利用多臂老虎机框架,通过估计任务间迁移、构建线性候选集和多老虎机结构,高效选择辅助任务子集。
- BandiK通过在训练-测试集划分上评估多输出神经网络性能来评估候选集,并利用半重叠臂属性优化多老虎机结构。
📝 摘要(中文)
有效跨多任务迁移知识至关重要,在基础模型的下游任务中也存在。然而,迁移的本质,及其传递性和非传递性,仍然是一个开放问题,负迁移仍然是一个重大障碍。多任务学习中,有益辅助任务集选择常因评估的高计算成本、大量合理的候选辅助集以及目标任务间选择的复杂性差异而受阻。为了解决这些约束,我们提出BandiK,一种新颖的三阶段多任务辅助任务子集选择方法,使用多臂老虎机。其中,每次臂的拉动通过在单个随机训练-测试数据集划分上训练和测试多输出神经网络来评估候选辅助集。首先,BandiK估计任务间的成对迁移,这有助于识别哪些任务可能从联合学习中受益。在第二阶段,它基于初始估计为每个目标任务构建线性数量的候选辅助任务集(在所有任务的数量中),显著减少了潜在辅助任务集的指数数量。第三,它为每个任务采用多臂老虎机(MAB)框架,其中臂对应于在训练-测试数据集划分上实现为多输出神经网络的候选辅助集的性能。为了提高效率,BandiK将这些单独的特定于任务的MAB集成到多老虎机结构中。所提出的多老虎机解决方案利用了相同的神经网络实现了与给定候选集相对应的不同个体老虎机的多个臂。这种半重叠臂属性定义了BandiK中使用的新颖的多老虎机成本/奖励结构。
🔬 方法详解
问题定义:多任务学习旨在利用多个相关任务的信息来提升模型在特定目标任务上的性能。然而,选择哪些辅助任务能够真正帮助目标任务是一个难题。现有方法通常需要评估大量的辅助任务组合,计算成本高昂,并且容易受到负迁移的影响,即某些辅助任务反而会降低目标任务的性能。
核心思路:BandiK的核心思路是通过一个三阶段的过程,高效地筛选出对目标任务有益的辅助任务子集。首先,估计任务之间的成对迁移关系,初步判断哪些任务之间存在正向迁移的可能性。然后,基于这些估计构建一个线性数量的候选辅助任务集,避免了指数级别的搜索空间。最后,使用多臂老虎机框架来评估这些候选集,并选择最优的组合。
技术框架:BandiK包含三个主要阶段:1) 成对迁移估计:计算所有任务对之间的迁移潜力,用于指导后续的候选集构建。2) 候选集构建:基于第一阶段的估计结果,为每个目标任务构建一组候选的辅助任务集。3) 多臂老虎机选择:使用多臂老虎机框架,将每个候选集视为一个臂,通过训练和评估多输出神经网络来估计每个臂的奖励,最终选择最优的辅助任务集。
关键创新:BandiK的关键创新在于其多老虎机结构,它利用了不同任务的候选集之间可能存在重叠的特性。具体来说,如果多个任务的候选集中包含相同的辅助任务集,那么只需要训练一次对应的多输出神经网络,就可以同时评估这些候选集,从而显著降低计算成本。这种半重叠臂的特性定义了一种新的多老虎机成本/奖励结构。
关键设计:BandiK使用多输出神经网络来评估候选辅助任务集。每个输出对应一个任务,网络在训练集上进行训练,然后在测试集上评估性能。多臂老虎机的奖励函数可以是任何与任务性能相关的指标,例如准确率或F1值。算法的关键在于如何有效地探索和利用不同的候选集,以找到最优的辅助任务组合。具体的多臂老虎机算法可以选择UCB、Thompson Sampling等。
🖼️ 关键图片
📊 实验亮点
论文提出的BandiK方法能够显著降低辅助任务选择的计算成本,同时避免负迁移。通过实验验证,BandiK在多个多任务学习数据集上取得了优于现有方法的性能,尤其是在任务数量较多时,其效率优势更加明显。具体性能提升数据未知,但强调了优于现有方法。
🎯 应用场景
BandiK可应用于各种多任务学习场景,例如自然语言处理中的多语言翻译、计算机视觉中的多标签图像分类、以及机器人学习中的多任务技能学习。该方法能够自动选择合适的辅助任务,提高模型在目标任务上的性能,并降低人工选择辅助任务的成本。尤其适用于基础模型微调,可以有效选择辅助数据集,提升下游任务表现。
📄 摘要(原文)
The challenge of effectively transferring knowledge across multiple tasks is of critical importance and is also present in downstream tasks with foundation models. However, the nature of transfer, its transitive-intransitive nature, is still an open problem, and negative transfer remains a significant obstacle. Selection of beneficial auxiliary task sets in multi-task learning is frequently hindered by the high computational cost of their evaluation, the high number of plausible candidate auxiliary sets, and the varying complexity of selection across target tasks. To address these constraints, we introduce BandiK, a novel three-stage multi-task auxiliary task subset selection method using multi-bandits, where each arm pull evaluates candidate auxiliary sets by training and testing a multiple output neural network on a single random train-test dataset split. Firstly, BandiK estimates the pairwise transfers between tasks, which helps in identifying which tasks are likely to benefit from joint learning. In the second stage, it constructs a linear number of candidate sets of auxiliary tasks (in the number of all tasks) for each target task based on the initial estimations, significantly reducing the exponential number of potential auxiliary task sets. Thirdly, it employs a Multi-Armed Bandit (MAB) framework for each task, where the arms correspond to the performance of candidate auxiliary sets realized as multiple output neural networks over train-test data set splits. To enhance efficiency, BandiK integrates these individual task-specific MABs into a multi-bandit structure. The proposed multi-bandit solution exploits that the same neural network realizes multiple arms of different individual bandits corresponding to a given candidate set. This semi-overlapping arm property defines a novel multi-bandit cost/reward structure utilized in BandiK.