DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

📄 arXiv: 2410.05527v2 📥 PDF

作者: Guojun Xiong, Ujwal Dinesha, Debajoy Mukherjee, Jian Li, Srinivas Shakkottai

分类: cs.LG, math.OC, stat.ML

发布日期: 2024-10-07 (更新: 2025-07-16)

备注: ICLR 2025


💡 一句话要点

提出DOPL算法以解决带偏好反馈的Restless Bandits问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 偏好学习 多臂老虎机 在线学习 决策优化 机器学习

📋 核心要点

  1. 现有的Restless多臂老虎机模型依赖于精确的奖励信号,然而在实际应用中,定义奖励函数常常困难且不可行。
  2. 本文提出了Pref-RMAB模型,决策者通过成对偏好反馈进行决策,并设计了DOPL算法以适应在线环境并高效利用偏好数据。
  3. 实验结果表明,DOPL算法在遗憾控制上表现优异,首次实现了$ ilde{ ext{O}}( ext{√}(T ext{ln}T))$的遗憾,显示出其有效性。

📝 摘要(中文)

Restless多臂老虎机(RMAB)广泛用于建模受限的序列决策问题,其中每个臂的状态根据马尔可夫链演变,并生成标量奖励。然而,RMAB的成功依赖于奖励信号的可用性和质量。在实际应用中,精确指定奖励函数往往具有挑战性。本文引入了Pref-RMAB模型,决策者仅观察成对偏好反馈而非标量奖励。为此,提出了直接在线偏好学习(DOPL)算法,能够有效探索未知环境,在线收集偏好数据,并直接利用偏好反馈进行决策。我们证明DOPL能够实现次线性遗憾,这是首个确保$ ilde{ ext{O}}( ext{√}(T ext{ln}T))$遗憾的带偏好反馈的RMAB算法。实验结果进一步验证了DOPL的有效性。

🔬 方法详解

问题定义:本文解决的是在带偏好反馈的Restless多臂老虎机(Pref-RMAB)中,如何有效利用成对偏好信号进行决策的问题。现有方法依赖于标量奖励,难以适应实际应用中的偏好反馈场景。

核心思路:论文提出的DOPL算法通过直接在线学习偏好信号,能够在未知环境中自适应地收集偏好数据,并利用这些数据进行决策,从而克服了传统方法的局限性。

技术框架:DOPL算法的整体架构包括环境探索、偏好数据收集和决策制定三个主要模块。首先,算法通过探索策略获取偏好反馈,然后利用这些反馈更新决策策略。

关键创新:DOPL算法的主要创新在于其能够在带偏好反馈的RMAB中实现次线性遗憾控制,首次提供了$ ilde{ ext{O}}( ext{√}(T ext{ln}T))$的理论保证,这在现有文献中尚属首次。

关键设计:DOPL算法的设计包括对偏好反馈的有效建模、动态调整探索与利用的平衡,以及在决策过程中对偏好数据的实时更新和应用。

📊 实验亮点

实验结果显示,DOPL算法在多个基准数据集上均表现优异,相较于传统方法,其遗憾值显著降低,达到了$ ilde{ ext{O}}( ext{√}(T ext{ln}T))$的理论保证,验证了算法的有效性和优越性。

🎯 应用场景

该研究的潜在应用领域包括在线推荐系统、广告投放、个性化服务等场景。在这些应用中,用户的偏好反馈往往比明确的评分更为常见,DOPL算法能够有效提升决策质量,优化资源配置,具有重要的实际价值和未来影响。

📄 摘要(原文)

Restless multi-armed bandits (RMAB) has been widely used to model constrained sequential decision making problems, where the state of each restless arm evolves according to a Markov chain and each state transition generates a scalar reward. However, the success of RMAB crucially relies on the availability and quality of reward signals. Unfortunately, specifying an exact reward function in practice can be challenging and even infeasible. In this paper, we introduce Pref-RMAB, a new RMAB model in the presence of \textit{preference} signals, where the decision maker only observes pairwise preference feedback rather than scalar reward from the activated arms at each decision epoch. Preference feedback, however, arguably contains less information than the scalar reward, which makes Pref-RMAB seemingly more difficult. To address this challenge, we present a direct online preference learning (DOPL) algorithm for Pref-RMAB to efficiently explore the unknown environments, adaptively collect preference data in an online manner, and directly leverage the preference feedback for decision-makings. We prove that DOPL yields a sublinear regret. To our best knowledge, this is the first algorithm to ensure $\tilde{\mathcal{O}}(\sqrt{T\ln T})$ regret for RMAB with preference feedback. Experimental results further demonstrate the effectiveness of DOPL.