Trusted Routing for Blockchain-Empowered UAV Networks via Multi-Agent Deep Reinforcement Learning

作者: Ziye Jia, Sijie He, Qiuming Zhu, Wei Wang, Qihui Wu, Zhu Han

分类: eess.SY, cs.AI, cs.CR

发布日期: 2025-07-31

备注: IEEE Tcom Accepted

💡 一句话要点

提出基于多智能体深度强化学习的区块链赋能无人机网络可信路由方法

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 无人机网络 可信路由 区块链 多智能体深度强化学习 信任管理 网络安全

📋 核心要点

无人机网络路由易受恶意攻击，传统方法难以保证安全性，面临分布式拓扑和高动态性的挑战。
设计基于区块链的信任管理机制（BTMM）动态评估信任值，并结合多智能体深度强化学习优化路由决策。
实验结果表明，所提方法在降低网络延迟方面优于现有算法，验证了其在提升无人机网络路由安全性和效率方面的有效性。

📝 摘要（中文）

针对无人机网络中路由易受恶意攻击的问题，本文提出了一种基于区块链赋能的无人机网络可信路由方法。首先，将时变无人机网络中的路由过程建模为整数线性规划问题，旨在最小化总延迟。然后，设计了一种基于区块链的信任管理机制（BTMM），动态评估信任值并识别低信任无人机，并提出了一种共识无人机更新机制，以改进区块链中传统的实用拜占庭容错算法。此外，考虑到局部可观测性，将路由问题重新表述为分散的部分可观测马尔可夫决策过程。进一步，设计了一种基于多智能体双深度Q网络的路由算法，以最小化总延迟。仿真结果表明，与多智能体近端策略优化算法、多智能体深度Q网络算法以及没有BTMM的方法相比，所提出的机制的延迟分别降低了13.39％、12.74％和16.6％。

🔬 方法详解

问题定义：论文旨在解决无人机网络中由于恶意节点攻击导致路由安全性降低的问题。现有方法难以在动态变化的拓扑结构中有效识别和规避恶意节点，导致网络延迟增加和数据传输可靠性降低。传统的路由算法通常假设网络节点是可信的，无法应对恶意节点的干扰。

核心思路：论文的核心思路是结合区块链技术和多智能体深度强化学习，构建一个可信的路由机制。区块链用于维护节点的信任值，并通过共识机制确保信任信息的可靠性。多智能体深度强化学习则用于根据节点的信任值动态调整路由策略，选择延迟更低、更安全的路径。

技术框架：该方法包含以下主要模块：1) 基于区块链的信任管理机制（BTMM）：用于动态评估和更新无人机节点的信任值。2) 共识无人机更新机制：改进传统的实用拜占庭容错算法，提高区块链共识效率。3) 多智能体双深度Q网络（MAD-DDQN）路由算法：基于局部观测信息，学习最优的分布式路由策略。整体流程是：首先，BTMM评估节点信任值；然后，MAD-DDQN根据信任值选择路由路径；最后，通过仿真验证算法性能。

关键创新：论文的关键创新在于将区块链技术与多智能体深度强化学习相结合，用于解决无人机网络中的可信路由问题。与传统方法相比，该方法能够动态评估节点的信任值，并根据信任值调整路由策略，从而有效应对恶意节点的攻击。此外，论文还提出了一种共识无人机更新机制，提高了区块链的共识效率。

关键设计：BTMM的关键设计包括信任值的计算方法、信任值的更新策略以及恶意节点的识别阈值。MAD-DDQN的关键设计包括状态空间、动作空间、奖励函数以及网络结构。状态空间包括节点的剩余能量、邻居节点的信任值等信息。动作空间包括选择哪个邻居节点作为下一跳。奖励函数旨在最小化总延迟，同时惩罚选择低信任节点的行为。网络结构采用双深度Q网络，以提高学习的稳定性。

🖼️ 关键图片

📊 实验亮点

仿真结果表明，与多智能体近端策略优化算法、多智能体深度Q网络算法以及没有BTMM的方法相比，所提出的机制的延迟分别降低了13.39％、12.74％和16.6％。这些数据表明，所提出的方法在降低网络延迟和提高路由安全性方面具有显著优势。

🎯 应用场景

该研究成果可应用于各种需要安全可靠的无人机网络通信场景，例如灾难救援、环境监测、边境巡逻和物流配送等。通过提高无人机网络路由的安全性，可以确保关键数据的可靠传输，提升任务执行的效率和成功率。未来，该方法有望推广到其他类型的无线网络，例如物联网和移动自组织网络。

📄 摘要（原文）

Due to the high flexibility and versatility, unmanned aerial vehicles (UAVs) are leveraged in various fields including surveillance and disaster rescue.However, in UAV networks, routing is vulnerable to malicious damage due to distributed topologies and high dynamics. Hence, ensuring the routing security of UAV networks is challenging. In this paper, we characterize the routing process in a time-varying UAV network with malicious nodes. Specifically, we formulate the routing problem to minimize the total delay, which is an integer linear programming and intractable to solve. Then, to tackle the network security issue, a blockchain-based trust management mechanism (BTMM) is designed to dynamically evaluate trust values and identify low-trust UAVs. To improve traditional practical Byzantine fault tolerance algorithms in the blockchain, we propose a consensus UAV update mechanism. Besides, considering the local observability, the routing problem is reformulated into a decentralized partially observable Markov decision process. Further, a multi-agent double deep Q-network based routing algorithm is designed to minimize the total delay. Finally, simulations are conducted with attacked UAVs and numerical results show that the delay of the proposed mechanism decreases by 13.39$\%$, 12.74$\%$, and 16.6$\%$ than multi-agent proximal policy optimal algorithms, multi-agent deep Q-network algorithms, and methods without BTMM, respectively.

Trusted Routing for Blockchain-Empowered UAV Networks via Multi-Agent Deep Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理