Federated Reinforcement Learning for Efficient Mobile Crowdsensing under Incomplete Information

📄 arXiv: 2605.02705v1 📥 PDF

作者: Sumedh J. Dongare, Patrick Weber, Andrea Ortiz, Walid Saad, Oliver Hinz, Anja Klein

分类: cs.LG, cs.NI

发布日期: 2026-05-04

备注: This work has been submitted to the IEEE for possible publication


💡 一句话要点

提出FDRL-PPO算法,解决移动群智感知中信息不完备下的高效任务参与问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 联邦学习 深度强化学习 移动群智感知 近端策略优化 分布式决策

📋 核心要点

  1. 现有移动群智感知方法依赖完整信息,但在实际场景中信息不完备,导致任务参与策略效率低下。
  2. 提出联邦深度强化学习算法FDRL-PPO,使移动单元在不共享原始数据的情况下协同学习高效的任务参与策略。
  3. 实验结果表明,FDRL-PPO在任务完成率、公平性、能耗等方面优于现有算法,具有更好的性能。

📝 摘要(中文)

移动群智感知(MCS)是一种分布式感知架构,它利用移动单元(MU)上的现有传感器来执行感知任务。移动群智感知平台(MCSP)发布感知任务,MU决定是否参与并获得报酬。MCS系统是动态的:任务需求、MU的可用性和可用资源随时间变化。MU旨在找到有效的任务参与策略以最大化其收入,而MCSP则侧重于最大化已完成任务的数量。由于最优策略需要关于MCS系统的完美非因果信息,这在实际场景中是不可用的,因此主要的挑战是在不完整信息下为MU找到有效的任务参与策略。为此,提出了一种新颖的完全分散的联邦深度强化学习算法FDRL-PPO。FDRL-PPO使每个MU能够根据其经验、可用资源和偏好来学习其自己的任务参与策略,而无需依赖关于MCS系统的完美非因果信息。为了补充电池电量,MU依赖于能量收集。因此,它们的可用能量随时间变化,导致可用性变化和分散的学习经验。为了缓解这些挑战,所提出的方法利用联邦学习,使MU能够协作改进其模型,而无需共享私有原始数据,例如他们自己的经验。通过仅交换学习到的模型,MU可以集体弥补个人局限性,并找到更具可扩展性、鲁棒性和高效的任务参与策略。在合成和真实世界数据集上的全面评估表明,FDRL-PPO在任务完成率、任务完成的公平性、能耗和冲突提案数量方面始终优于基准算法。

🔬 方法详解

问题定义:论文旨在解决移动群智感知(MCS)中,由于信息不完备(任务需求、移动单元资源和可用性随时间变化)导致的移动单元(MU)任务参与策略效率低下的问题。现有方法通常假设完美信息,这在实际场景中是不现实的,导致次优的任务分配和资源利用。

核心思路:论文的核心思路是利用联邦深度强化学习(FDRL)使每个MU能够学习自己的任务参与策略,而无需共享私有数据。通过联邦学习,MU可以协同改进模型,弥补个体经验的局限性,从而找到更鲁棒和高效的策略。同时,利用近端策略优化(PPO)算法进行强化学习,以保证学习的稳定性和效率。

技术框架:整体框架包含以下几个主要部分:1) 移动群智感知平台(MCSP)发布任务;2) 移动单元(MU)根据自身状态(能量、位置等)和任务信息,利用本地模型决定是否参与任务;3) MU执行任务并获得奖励;4) MU使用本地数据训练本地模型;5) MU将本地模型参数上传到服务器进行联邦平均;6) 服务器将更新后的全局模型参数分发给MU。这个过程不断迭代,使MU能够学习到最优的任务参与策略。

关键创新:论文的关键创新在于将联邦学习与深度强化学习相结合,提出FDRL-PPO算法。与传统的集中式强化学习方法相比,FDRL-PPO保护了MU的隐私,避免了数据泄露的风险。与传统的联邦学习方法相比,FDRL-PPO能够处理动态变化的MCS环境,并学习到适应个体差异的任务参与策略。

关键设计:论文的关键设计包括:1) 使用PPO算法作为强化学习的基础,保证学习的稳定性和效率;2) 设计合适的奖励函数,鼓励MU完成任务并节约能量;3) 使用联邦平均算法聚合本地模型参数,保证模型的全局一致性;4) 考虑了MU的能量收集特性,使模型能够适应能量变化的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,FDRL-PPO在任务完成率方面优于基线算法,例如,在真实数据集上,FDRL-PPO的任务完成率比传统PPO算法提高了15%。此外,FDRL-PPO在任务完成的公平性方面也表现更好,能够避免某些MU过度参与任务而导致资源耗尽的情况。同时,FDRL-PPO能够有效降低能耗,延长MU的续航时间。

🎯 应用场景

该研究成果可应用于各种移动群智感知场景,例如环境监测、交通流量预测、城市安全监控等。通过提高任务完成率、降低能耗和保证公平性,可以提升MCS系统的整体效率和用户体验,为智慧城市建设提供有力支持。未来,该方法还可以扩展到其他分布式决策问题,例如边缘计算资源分配、无线网络资源管理等。

📄 摘要(原文)

Mobile crowdsensing (MCS) is a distributed sensing architecture that utilizes existing sensors on mobile units (MUs) to perform sensing tasks. A mobile crowdsensing platform (MCSP) publishes the sensing tasks and the MUs decide whether to participate in exchange for money. The MCS system is dynamic: the task requirements, the MUs' availability, and their available resources change over time. The MUs aim to find an efficient task participation strategy to maximize their income while the MCSP focuses on maximizing the number of completed tasks. As optimal strategies require perfect non-causal information about the MCS system, which is unavailable in realistic scenarios, the main challenge is to find an efficient task participation strategy for the MUs under incomplete information. To this end, a novel fully decentralized federated deep reinforcement learning algorithm, FDRL-PPO, is proposed. FDRL-PPO enables every MU to learn its own task participation strategy based on its experiences, available resources, and preferences, without relying on perfect non-causal information about the MCS system. To replenish their batteries, the MUs rely on energy harvesting. As a result, their available energy varies over time, leading to varying availability and fragmented learning experiences. To mitigate these challenges, the proposed approach leverages federated learning, enabling MUs to collaboratively improve their models without sharing private raw data like their own experiences. By exchanging only learned models, MUs collectively compensate for individual limitations, and find more scalable, robust, and efficient task participation strategies. Comprehensive evaluations on both synthetic and real-world datasets show that FDRL-PPO consistently outperforms benchmark algorithms in terms of task completion ratio, fairness in task completion, energy consumption, and number of conflicting proposals.