Federated Distributional Reinforcement Learning with Distributional Critic Regularization
作者: David Millard, Cecilia Alm, Rashid Ali, Pengcheng Shi, Ali Baheri
分类: cs.LG
发布日期: 2026-03-18
备注: 9 pages, 4 Figures, conference
💡 一句话要点
提出TR-FedDistRL,解决联邦强化学习中值函数平均导致的安全问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦强化学习 分布强化学习 分位数回归 Wasserstein重心 信任区域 安全强化学习 风险感知
📋 核心要点
- 传统联邦强化学习通过平均值函数或策略,忽略了安全关键场景下的分布多模态性和尾部风险。
- TR-FedDistRL通过联邦分位数价值函数评论器,并引入基于Wasserstein重心的信任区域来约束参数平均,保留分布信息。
- 实验表明,TR-FedDistRL在bandit、多智能体gridworld和高速公路环境中,降低了事故率和策略漂移。
📝 摘要(中文)
联邦强化学习通常通过参数平均来聚合值函数或策略,这种方法侧重于期望回报,可能会掩盖在安全关键环境中重要的统计多模态性和尾部行为。本文形式化了联邦分布强化学习(FedDistRL),其中客户端参数化分位数价值函数评论器,并仅联邦这些网络。此外,本文还提出了TR-FedDistRL,它在每个客户端上构建一个关于时间缓冲区的风险感知Wasserstein重心。这个局部重心提供了一个参考区域来约束参数平均的评论器,确保在联邦过程中必要的分布信息不会被平均掉。分布式的信任区域被实现为一个围绕这个参考的shrink-squash步骤。在固定策略评估下,可行性图是非扩张的,并且在评估下的探针集Wasserstein度量中,更新是收缩的。在bandit、多智能体gridworld和连续高速公路环境上的实验表明,与面向均值和非联邦的基线相比,TR-FedDistRL减少了均值涂抹,改善了安全代理(灾难/事故率),并降低了评论器/策略漂移。
🔬 方法详解
问题定义:联邦强化学习旨在利用多个客户端的数据进行强化学习模型的训练,但传统方法如参数平均,在聚合值函数或策略时,容易忽略数据分布的复杂性,尤其是在安全关键场景下,对风险的评估不足,导致模型性能下降甚至出现安全问题。现有方法侧重于期望回报,忽略了分布的尾部行为和多模态性。
核心思路:TR-FedDistRL的核心思路是联邦分布强化学习,即不直接平均值函数或策略的参数,而是联邦分位数价值函数评论器。此外,引入基于Wasserstein重心的信任区域,约束参数平均的评论器,以保留必要的分布信息,避免在联邦过程中将重要的分布特征平均掉。通过这种方式,模型能够更好地捕捉数据分布的复杂性,从而提高在安全关键场景下的性能。
技术框架:TR-FedDistRL的整体框架包括以下几个主要步骤:1) 每个客户端独立训练其分位数价值函数评论器;2) 每个客户端计算其时间缓冲区上的Wasserstein重心,作为局部参考区域;3) 将客户端的评论器参数进行平均;4) 使用shrink-squash步骤,将平均后的评论器参数约束在基于Wasserstein重心的信任区域内,以保留分布信息。
关键创新:TR-FedDistRL的关键创新在于:1) 形式化了联邦分布强化学习(FedDistRL)的概念,即联邦分位数价值函数评论器而非直接联邦策略或值函数;2) 提出了基于Wasserstein重心的信任区域,用于约束参数平均的评论器,防止分布信息的丢失。这种方法能够更好地捕捉数据分布的复杂性,从而提高在安全关键场景下的性能。
关键设计:TR-FedDistRL的关键设计包括:1) 使用分位数价值函数评论器来表示值函数的分布;2) 使用Wasserstein重心来构建局部参考区域,该重心能够反映客户端数据的分布特征;3) 使用shrink-squash步骤来实现分布式的信任区域,该步骤能够将平均后的评论器参数约束在参考区域内,同时保持参数的平滑性。具体参数设置包括Wasserstein距离的计算方式、shrink和squash的比例等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TR-FedDistRL在bandit、多智能体gridworld和连续高速公路环境中,与面向均值和非联邦的基线相比,减少了均值涂抹,改善了安全代理(灾难/事故率),并降低了评论器/策略漂移。例如,在高速公路环境中,TR-FedDistRL显著降低了事故率,表明其在安全关键场景下的优越性。
🎯 应用场景
TR-FedDistRL可应用于自动驾驶、机器人控制、金融风控等安全关键领域。通过联邦学习,可以利用多个数据源进行模型训练,提高模型的泛化能力和安全性。在自动驾驶中,可以降低事故率;在金融风控中,可以更准确地识别欺诈行为。该研究为联邦强化学习在安全关键领域的应用提供了新的思路。
📄 摘要(原文)
Federated reinforcement learning typically aggregates value functions or policies by parameter averaging, which emphasizes expected return and can obscure statistical multimodality and tail behavior that matter in safety-critical settings. We formalize federated distributional reinforcement learning (FedDistRL), where clients parametrize quantile value function critics and federate these networks only. We also propose TR-FedDistRL, which builds a per client, risk-aware Wasserstein barycenter over a temporal buffer. This local barycenter provides a reference region to constrain the parameter averaged critic, ensuring necessary distributional information is not averaged out during the federation process. The distributional trust region is implemented as a shrink-squash step around this reference. Under fixed-policy evaluation, the feasibility map is nonexpansive and the update is contractive in a probe-set Wasserstein metric under evaluation. Experiments on a bandit, multi-agent gridworld, and continuous highway environment show reduced mean-smearing, improved safety proxies (catastrophe/accident rate), and lower critic/policy drift versus mean-oriented and non-federated baselines.