Federated Distributional Reinforcement Learning with Distributional Critic Regularization

作者: David Millard, Cecilia Alm, Rashid Ali, Pengcheng Shi, Ali Baheri

分类: cs.LG

发布日期: 2026-03-18

备注: 9 pages, 4 Figures, conference

💡 一句话要点

提出TR-FedDistRL，解决联邦强化学习中值函数平均导致的安全问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦强化学习 分布强化学习 分位数回归 Wasserstein重心 信任区域 安全强化学习 风险感知

📋 核心要点

传统联邦强化学习通过平均值函数或策略，忽略了安全关键场景下的分布多模态性和尾部风险。
TR-FedDistRL通过联邦分位数价值函数评论器，并引入基于Wasserstein重心的信任区域来约束参数平均，保留分布信息。
实验表明，TR-FedDistRL在bandit、多智能体gridworld和高速公路环境中，降低了事故率和策略漂移。

📝 摘要（中文）

联邦强化学习通常通过参数平均来聚合值函数或策略，这种方法侧重于期望回报，可能会掩盖在安全关键环境中重要的统计多模态性和尾部行为。本文形式化了联邦分布强化学习（FedDistRL），其中客户端参数化分位数价值函数评论器，并仅联邦这些网络。此外，本文还提出了TR-FedDistRL，它在每个客户端上构建一个关于时间缓冲区的风险感知Wasserstein重心。这个局部重心提供了一个参考区域来约束参数平均的评论器，确保在联邦过程中必要的分布信息不会被平均掉。分布式的信任区域被实现为一个围绕这个参考的shrink-squash步骤。在固定策略评估下，可行性图是非扩张的，并且在评估下的探针集Wasserstein度量中，更新是收缩的。在bandit、多智能体gridworld和连续高速公路环境上的实验表明，与面向均值和非联邦的基线相比，TR-FedDistRL减少了均值涂抹，改善了安全代理（灾难/事故率），并降低了评论器/策略漂移。

🔬 方法详解

问题定义：联邦强化学习旨在利用多个客户端的数据进行强化学习模型的训练，但传统方法如参数平均，在聚合值函数或策略时，容易忽略数据分布的复杂性，尤其是在安全关键场景下，对风险的评估不足，导致模型性能下降甚至出现安全问题。现有方法侧重于期望回报，忽略了分布的尾部行为和多模态性。

核心思路：TR-FedDistRL的核心思路是联邦分布强化学习，即不直接平均值函数或策略的参数，而是联邦分位数价值函数评论器。此外，引入基于Wasserstein重心的信任区域，约束参数平均的评论器，以保留必要的分布信息，避免在联邦过程中将重要的分布特征平均掉。通过这种方式，模型能够更好地捕捉数据分布的复杂性，从而提高在安全关键场景下的性能。

技术框架：TR-FedDistRL的整体框架包括以下几个主要步骤：1) 每个客户端独立训练其分位数价值函数评论器；2) 每个客户端计算其时间缓冲区上的Wasserstein重心，作为局部参考区域；3) 将客户端的评论器参数进行平均；4) 使用shrink-squash步骤，将平均后的评论器参数约束在基于Wasserstein重心的信任区域内，以保留分布信息。

关键创新：TR-FedDistRL的关键创新在于：1) 形式化了联邦分布强化学习（FedDistRL）的概念，即联邦分位数价值函数评论器而非直接联邦策略或值函数；2) 提出了基于Wasserstein重心的信任区域，用于约束参数平均的评论器，防止分布信息的丢失。这种方法能够更好地捕捉数据分布的复杂性，从而提高在安全关键场景下的性能。

关键设计：TR-FedDistRL的关键设计包括：1) 使用分位数价值函数评论器来表示值函数的分布；2) 使用Wasserstein重心来构建局部参考区域，该重心能够反映客户端数据的分布特征；3) 使用shrink-squash步骤来实现分布式的信任区域，该步骤能够将平均后的评论器参数约束在参考区域内，同时保持参数的平滑性。具体参数设置包括Wasserstein距离的计算方式、shrink和squash的比例等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，TR-FedDistRL在bandit、多智能体gridworld和连续高速公路环境中，与面向均值和非联邦的基线相比，减少了均值涂抹，改善了安全代理（灾难/事故率），并降低了评论器/策略漂移。例如，在高速公路环境中，TR-FedDistRL显著降低了事故率，表明其在安全关键场景下的优越性。

🎯 应用场景

TR-FedDistRL可应用于自动驾驶、机器人控制、金融风控等安全关键领域。通过联邦学习，可以利用多个数据源进行模型训练，提高模型的泛化能力和安全性。在自动驾驶中，可以降低事故率；在金融风控中，可以更准确地识别欺诈行为。该研究为联邦强化学习在安全关键领域的应用提供了新的思路。

📄 摘要（原文）

Federated reinforcement learning typically aggregates value functions or policies by parameter averaging, which emphasizes expected return and can obscure statistical multimodality and tail behavior that matter in safety-critical settings. We formalize federated distributional reinforcement learning (FedDistRL), where clients parametrize quantile value function critics and federate these networks only. We also propose TR-FedDistRL, which builds a per client, risk-aware Wasserstein barycenter over a temporal buffer. This local barycenter provides a reference region to constrain the parameter averaged critic, ensuring necessary distributional information is not averaged out during the federation process. The distributional trust region is implemented as a shrink-squash step around this reference. Under fixed-policy evaluation, the feasibility map is nonexpansive and the update is contractive in a probe-set Wasserstein metric under evaluation. Experiments on a bandit, multi-agent gridworld, and continuous highway environment show reduced mean-smearing, improved safety proxies (catastrophe/accident rate), and lower critic/policy drift versus mean-oriented and non-federated baselines.

Federated Distributional Reinforcement Learning with Distributional Critic Regularization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理