A Spectral Revisit of the Distributional Bellman Operator under the Cramér Metric

📄 arXiv: 2603.12576v1 📥 PDF

作者: Keru Wang, Yixin Deng, Yao Lyu, Stephen Redmond, Shengbo Eben Li

分类: cs.LG

发布日期: 2026-03-13


💡 一句话要点

在Cramér度量下,论文提出分布贝尔曼算子的谱分析新方法,为DRL提供理论基础。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 分布强化学习 贝尔曼算子 Cramér度量 累积分布函数 谱分析 正则化 希尔伯特空间

📋 核心要点

  1. 现有DRL分析主要关注贝尔曼算子的压缩性质,缺乏对分布结构性作用的深入理解。
  2. 论文在CDF层面直接分析贝尔曼动力学,将Cramér几何作为内在分析设置,揭示其仿射和线性作用。
  3. 构建正则化谱希尔伯特表示,在不改变贝尔曼动力学的前提下,实现CDF层面的几何表示。

📝 摘要(中文)

分布强化学习(DRL)研究贝尔曼更新下完整回报分布的演变,而非仅关注期望值。一个经典结果是分布贝尔曼算子在Cramér度量下是压缩的,这对应于累积分布函数(CDF)差异上的$L^2$几何。虽然这种压缩性确保了策略评估的稳定性,但现有的分析主要停留在度量层面,侧重于压缩性质,而没有阐明贝尔曼更新对分布的结构性作用。本文直接在CDF层面分析分布贝尔曼动力学,将Cramér几何视为内在的分析设置。在此层面,贝尔曼更新对CDF呈仿射作用,对CDF之间的差异呈线性作用,其压缩性质对这种线性作用产生一致的界限。在此内在公式的基础上,我们构建了一系列正则化的谱希尔伯特表示,通过精确共轭实现CDF层面的几何,而不修改底层贝尔曼动力学。正则化仅影响几何,并在零正则化极限下消失,恢复了原生的Cramér度量。该框架阐明了分布贝尔曼更新的底层算子结构,并为DRL中进一步的函数和算子理论分析提供了基础。

🔬 方法详解

问题定义:现有的分布强化学习研究主要关注贝尔曼算子在Cramér度量下的压缩性质,缺乏对贝尔曼更新如何影响回报分布结构的深入理解。这种缺乏结构性理解限制了对DRL算法的进一步分析和改进。现有方法主要停留在度量空间,难以揭示贝尔曼算子的内在作用机制。

核心思路:论文的核心思路是将Cramér度量下的分布贝尔曼算子直接作用于累积分布函数(CDF)层面进行分析。通过将Cramér几何视为内在的分析设置,揭示贝尔曼更新在CDF上的仿射和线性作用。这种方法能够更清晰地展现贝尔曼算子对分布的结构性影响,从而为进一步的理论分析提供基础。

技术框架:论文的技术框架主要包含以下几个阶段:1) 在CDF层面重新审视分布贝尔曼算子,将其视为在Cramér度量下的仿射和线性变换。2) 基于这种内在公式,构建一族正则化的谱希尔伯特表示,用于精确共轭CDF层面的几何结构。3) 分析正则化对几何的影响,证明在零正则化极限下,可以恢复原生的Cramér度量。整个框架旨在阐明分布贝尔曼更新的底层算子结构。

关键创新:论文最重要的技术创新在于将分布贝尔曼算子的分析从传统的度量空间提升到CDF层面,并构建了正则化的谱希尔伯特表示。与现有方法相比,该方法能够更直接地揭示贝尔曼算子对回报分布的结构性影响,避免了仅关注压缩性质的局限性。通过精确共轭CDF层面的几何结构,为进一步的函数和算子理论分析提供了可能。

关键设计:论文的关键设计包括:1) 选择Cramér度量作为内在的分析设置,因为它对应于CDF差异上的$L^2$几何,便于进行函数分析。2) 构建正则化的谱希尔伯特表示,通过正则化参数控制几何结构的平滑程度,并在零正则化极限下恢复原生度量。3) 通过谱分析方法,揭示贝尔曼算子在CDF上的线性作用,并推导出相应的界限。

📊 实验亮点

论文通过构建正则化的谱希尔伯特表示,精确地在CDF层面实现了Cramér几何,而没有改变底层的贝尔曼动力学。该方法在零正则化极限下恢复了原生的Cramér度量,为后续的函数和算子理论分析奠定了基础。虽然论文侧重于理论分析,但其结论为改进现有DRL算法提供了新的思路。

🎯 应用场景

该研究成果可应用于提升DRL算法的稳定性和收敛性分析,并为设计更高效的DRL算法提供理论指导。潜在的应用领域包括机器人控制、金融交易、推荐系统等,这些领域都需要对不确定性进行建模和优化。

📄 摘要(原文)

Distributional reinforcement learning (DRL) studies the evolution of full return distributions under Bellman updates rather than focusing on expected values. A classical result is that the distributional Bellman operator is contractive under the Cramér metric, which corresponds to an $L^2$ geometry on differences of cumulative distribution functions (CDFs). While this contraction ensures stability of policy evaluation, existing analyses remain largely metric, focusing on contraction properties without elucidating the structural action of the Bellman update on distributions. In this work, we analyse distributional Bellman dynamics directly at the level of CDFs, treating the Cramér geometry as the intrinsic analytical setting. At this level, the Bellman update acts affinely on CDFs and linearly on differences between CDFs, and its contraction property yields a uniform bound on this linear action. Building on this intrinsic formulation, we construct a family of regularised spectral Hilbert representations that realise the CDF-level geometry by exact conjugation, without modifying the underlying Bellman dynamics. The regularisation affects only the geometry and vanishes in the zero-regularisation limit, recovering the native Cramér metric. This framework clarifies the operator structure underlying distributional Bellman updates and provides a foundation for further functional and operator-theoretic analyses in DRL.