Multi-Task Representation Learning for Conservative Linear Bandits

📄 arXiv: 2605.12176v1 📥 PDF

作者: Jiabin Lin, Shana Moothedath

分类: cs.LG

发布日期: 2026-05-12


💡 一句话要点

提出CMTRL框架,解决保守线性Bandit中的多任务表示学习问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多任务学习 线性Bandit 保守Bandit 表示学习 低秩矩阵 安全约束 强化学习

📋 核心要点

  1. 现有线性Bandit方法在高维空间和多任务场景下效率较低,且难以保证安全性。
  2. 论文提出CMTRL框架,通过学习共享的低维表示,并在动作选择中加入安全约束,提升效率和安全性。
  3. 实验表明,提出的Safe-AltGDmin算法在保守线性Bandit任务中,性能优于现有基准算法。

📝 摘要(中文)

本文提出了一种用于线性Bandit的约束多任务表示学习(CMTRL)框架。我们考虑了d维空间中的T个线性Bandit任务,这些任务共享一个维度为r的公共低维表示,其中r远小于d和T的最小值。此外,任务受到约束,只有满足特定安全或性能要求的动作才被允许,这被称为保守(安全)Bandit。我们引入了一种新的算法,即安全交替投影梯度下降和最小化(Safe-AltGDmin),以恢复满足给定约束的低秩特征矩阵。在此算法的基础上,我们提出了一个用于保守线性Bandit的多任务表示学习框架,并建立了其遗憾和样本复杂度界限的理论保证。我们进行了实验,并将我们的算法与基准算法的性能进行了比较。

🔬 方法详解

问题定义:论文旨在解决多任务保守线性Bandit问题。传统的线性Bandit方法在处理多个相关任务时,通常需要为每个任务单独学习模型,导致计算复杂度高,样本效率低。此外,在某些应用场景下,需要保证动作的安全性或满足特定的性能要求,而现有方法难以直接处理这些约束。

核心思路:论文的核心思路是利用多任务学习的思想,假设所有任务共享一个低维的特征表示。通过学习这个共享的低维表示,可以显著减少需要学习的参数数量,从而提高样本效率和泛化能力。同时,在动作选择过程中引入约束,保证选择的动作满足安全或性能要求。

技术框架:CMTRL框架主要包含两个阶段:1) 学习共享的低维表示。该阶段使用Safe-AltGDmin算法,通过交替投影梯度下降和最小化来恢复满足约束的低秩特征矩阵。2) 基于学习到的低维表示进行动作选择。在每个任务中,根据学习到的低维表示和任务特定的参数,选择满足约束的动作。

关键创新:论文的关键创新在于提出了Safe-AltGDmin算法,该算法能够在满足给定约束的条件下,有效地学习低秩特征矩阵。与传统的梯度下降算法相比,Safe-AltGDmin算法在每次迭代后都会将解投影到约束集上,从而保证解的安全性。此外,将多任务学习和保守Bandit相结合,提升了算法的实用性。

关键设计:Safe-AltGDmin算法的关键设计包括:1) 交替投影梯度下降和最小化:通过交替执行梯度下降和投影操作,保证解的收敛性和安全性。2) 低秩约束:通过对特征矩阵施加低秩约束,降低模型的复杂度,提高泛化能力。3) 安全约束:通过在动作选择过程中引入约束,保证选择的动作满足安全或性能要求。具体的参数设置和损失函数选择取决于具体的应用场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了CMTRL框架的有效性。实验结果表明,提出的Safe-AltGDmin算法在保守线性Bandit任务中,相比于基准算法,能够显著降低遗憾值,提高样本效率。具体的性能提升幅度取决于具体的任务和参数设置,但总体而言,CMTRL框架能够有效地利用多任务信息,提高算法的性能和安全性。

🎯 应用场景

该研究成果可应用于推荐系统、金融风控、医疗决策等领域。例如,在推荐系统中,可以利用多任务学习来同时优化多个指标(如点击率、转化率),并保证推荐结果的安全性(如避免推荐不适宜的内容)。在金融风控中,可以利用保守Bandit来选择风险较低的投资策略。在医疗决策中,可以利用该方法来选择副作用较小的治疗方案。

📄 摘要(原文)

This paper presents the Constrained Multi-Task Representation Learning (CMTRL) framework for linear bandits. We consider T linear bandit tasks in a d dimensional space, which share a common low-dimensional representation of dimension r, where r is much smaller than the minimum of d and T. Furthermore, tasks are constrained so that only actions meeting specific safety or performance requirements are allowed, referred to as conservative (safe) bandits. We introduce a novel algorithm, Safe-Alternating projected Gradient Descent and minimization (Safe-AltGDmin), to recover a low-rank feature matrix while satisfying the given constraints. Building on this algorithm, we propose a multi-task representation learning framework for conservative linear bandits and establish theoretical guarantees for its regret and sample complexity bounds. We presented experiments and compared the performance of our algorithm with benchmark algorithms.