Learning to Bet for Horizon-Aware Anytime-Valid Testing
作者: Ege Onur Taga, Samet Oymak, Shubhanshu Shekhar
分类: stat.ME, cs.LG
发布日期: 2026-03-20
备注: 21 pages, 27 figures
💡 一句话要点
提出基于深度强化学习的时限感知测试方法以优化投注策略
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 投注策略 有限时域 最优控制 凯利投注 动态决策 有界均值
📋 核心要点
- 现有的投注策略在有限时间内的有效性和灵活性不足,难以适应动态变化的环境和目标。
- 论文提出了一种将时限感知投注视为有限时域最优控制问题的方法,并引入深度强化学习来优化投注策略。
- 实验结果表明,所提出的DQN策略在有限时域内表现优异,超越了现有的基线方法,达到了最先进的性能。
📝 摘要(中文)
本文开发了时限感知的随时有效测试和置信序列,针对在严格截止时间$N$下的有界均值问题。通过投注/过程框架,将时限感知投注转化为有限时域的最优控制问题,状态空间为$(t, ext{log} W_t)$,其中$t$为时间,$W_t$为测试的鞅值。研究表明,在某些状态空间的内部区域,显著偏离凯利投注的策略是次优的,而凯利投注则以高概率达到阈值。此外,识别出在某些条件下,若投注者落后于进度,采用比凯利更激进的投注可能更优,而若进度领先,则应采取更保守的投注。基于这一相图,提出了一种基于深度Q网络的深度强化学习方法,该方法从合成经验中学习单一策略,并将过去观察的简单统计映射到不同时间范围和零值的投注上。在有限时域实验中,学习到的DQN策略达到了最先进的结果。
🔬 方法详解
问题定义:本文旨在解决在严格截止时间下的有界均值测试中的投注策略优化问题。现有方法在动态环境中缺乏灵活性,难以有效应对时间限制。
核心思路:通过将时限感知投注转化为有限时域的最优控制问题,利用深度强化学习来学习最佳投注策略,以适应不同的进度状态。
技术框架:整体架构包括状态空间$(t, ext{log} W_t)$的定义,利用深度Q网络(DQN)进行策略学习,并通过合成经验进行训练。主要模块包括状态表示、策略学习和决策执行。
关键创新:最重要的创新在于识别出在不同状态下投注策略的适应性,提出了一个相图来指导投注决策,明确了凯利投注和其他策略的适用区域。
关键设计:在DQN的设计中,采用了特定的损失函数和网络结构,以确保策略能够有效映射历史观察到的统计信息,并在不同的时间范围内进行投注决策。具体参数设置和训练细节在实验部分进行了详细说明。
🖼️ 关键图片
📊 实验亮点
实验结果显示,所提出的DQN策略在有限时域实验中达到了最先进的性能,相较于基线方法提升幅度显著,具体性能数据表明在多个测试场景中均表现优异,验证了方法的有效性和实用性。
🎯 应用场景
该研究的潜在应用领域包括金融市场的投资策略优化、在线广告投放的实时决策以及其他需要在有限时间内进行动态决策的场景。其实际价值在于能够提高决策的有效性和灵活性,未来可能对相关领域的决策支持系统产生深远影响。
📄 摘要(原文)
We develop horizon-aware anytime-valid tests and confidence sequences for bounded means under a strict deadline $N$. Using the betting/e-process framework, we cast horizon-aware betting as a finite-horizon optimal control problem with state space $(t, \log W_t)$, where $t$ is the time and $W_t$ is the test martingale value. We first show that in certain interior regions of the state space, policies that deviate significantly from Kelly betting are provably suboptimal, while Kelly betting reaches the threshold with high probability. We then identify sufficient conditions showing that outside this region, more aggressive betting than Kelly can be better if the bettor is behind schedule, and less aggressive can be better if the bettor is ahead. Taken together these results suggest a simple phase diagram in the $(t, \log W_t)$ plane, delineating regions where Kelly, fractional Kelly, and aggressive betting may be preferable. Guided by this phase diagram, we introduce a Deep Reinforcement Learning approach based on a universal Deep Q-Network (DQN) agent that learns a single policy from synthetic experience and maps simple statistics of past observations to bets across horizons and null values. In limited-horizon experiments, the learned DQN policy yields state-of-the-art results.