General Bayesian Policy Learning

📄 arXiv: 2602.23672v1 📥 PDF

作者: Masahiro Kato

分类: stat.ML, cs.LG, econ.EM, math.ST, stat.ME

发布日期: 2026-02-27


💡 一句话要点

提出通用贝叶斯策略学习框架,解决决策问题中的策略优化问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 策略学习 贝叶斯方法 决策问题 福利最大化 平方损失 PAC-贝叶斯 神经网络

📋 核心要点

  1. 现有策略学习方法在处理复杂决策问题时,难以有效平衡探索与利用,导致策略优化效率低下。
  2. 论文提出通用贝叶斯框架,通过平方损失替代将福利最大化问题转化为误差最小化,构建决策规则的贝叶斯后验。
  3. 论文提供了PAC-贝叶斯风格的理论保证,并使用神经网络进行实验,验证了该框架的有效性。

📝 摘要(中文)

本研究提出了用于策略学习的通用贝叶斯框架。我们考虑决策问题,其中决策者从一个动作集中选择一个动作,以最大化其预期福利。典型的例子包括治疗选择和投资组合选择。在这些问题中,统计目标是一个决策规则,而对每个结果$Y(a)$的预测不一定是主要关注点。我们通过基于损失的贝叶斯更新来形式化这个策略学习问题。我们的主要技术手段是福利最大化的平方损失替代。我们证明了在策略类上最大化经验福利等价于最小化结果差异中缩放的平方误差,直到一个由调整参数$ζ>0$控制的二次正则化。这种重写产生了一个决策规则上的通用贝叶斯后验,它允许高斯伪似然解释。我们阐明了由此产生的广义后验的两种贝叶斯解释,一种是工作高斯视角,另一种是基于决策理论损失的视角。作为一个实现示例,我们介绍了具有tanh-squashed输出的神经网络。最后,我们提供了PAC-贝叶斯风格的理论保证。

🔬 方法详解

问题定义:论文旨在解决决策问题中的策略学习问题,例如治疗选择和投资组合选择。传统方法通常侧重于预测每个动作的结果,而忽略了直接优化决策规则。现有方法在处理高维状态空间和复杂动作空间时,策略优化效率较低,难以找到最优策略。

核心思路:论文的核心思路是将福利最大化问题转化为一个可解的优化问题。通过引入平方损失替代,将最大化经验福利等价于最小化结果差异的缩放平方误差,从而构建一个决策规则上的通用贝叶斯后验。这种转化使得可以使用贝叶斯方法来学习最优策略。

技术框架:该框架包含以下主要步骤:1) 定义决策问题,包括状态空间、动作空间和福利函数;2) 使用平方损失替代将福利最大化问题转化为误差最小化问题;3) 构建决策规则的贝叶斯后验,该后验具有高斯伪似然解释;4) 使用贝叶斯方法(例如,马尔可夫链蒙特卡洛)从后验中采样,得到最优策略。

关键创新:该论文的关键创新在于提出了通用贝叶斯框架,该框架允许使用贝叶斯方法直接学习决策规则,而无需显式地预测每个动作的结果。通过平方损失替代,将福利最大化问题转化为一个可解的优化问题,从而简化了策略学习过程。

关键设计:论文的关键设计包括:1) 使用平方损失作为福利最大化的替代损失函数;2) 引入调整参数ζ来控制二次正则化;3) 使用具有tanh-squashed输出的神经网络作为决策规则的函数逼近器;4) 提供了PAC-贝叶斯风格的理论保证,证明了该框架的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验验证了所提出的通用贝叶斯框架的有效性。具体而言,论文使用神经网络作为决策规则的函数逼近器,并在多个数据集上进行了实验。实验结果表明,该框架能够有效地学习最优策略,并取得了良好的性能。此外,论文还提供了PAC-贝叶斯风格的理论保证,证明了该框架的泛化能力。

🎯 应用场景

该研究成果可应用于医疗决策、金融投资、推荐系统等领域。例如,在医疗领域,可以根据患者的特征和治疗方案,学习最优的治疗策略,提高治疗效果。在金融领域,可以根据市场数据和投资者的风险偏好,学习最优的投资组合,最大化投资回报。该研究为解决实际决策问题提供了一种新的思路和方法。

📄 摘要(原文)

This study proposes the General Bayes framework for policy learning. We consider decision problems in which a decision-maker chooses an action from an action set to maximize its expected welfare. Typical examples include treatment choice and portfolio selection. In such problems, the statistical target is a decision rule, and the prediction of each outcome $Y(a)$ is not necessarily of primary interest. We formulate this policy learning problem by loss-based Bayesian updating. Our main technical device is a squared-loss surrogate for welfare maximization. We show that maximizing empirical welfare over a policy class is equivalent to minimizing a scaled squared error in the outcome difference, up to a quadratic regularization controlled by a tuning parameter $ζ>0$. This rewriting yields a General Bayes posterior over decision rules that admits a Gaussian pseudo-likelihood interpretation. We clarify two Bayesian interpretations of the resulting generalized posterior, a working Gaussian view and a decision-theoretic loss-based view. As one implementation example, we introduce neural networks with tanh-squashed outputs. Finally, we provide theoretical guarantees in a PAC-Bayes style.