Flying by Inference: Active Inference World Models for Adaptive UAV Swarms

📄 arXiv: 2604.27935v1 📥 PDF

作者: Kaleem Arshid, Ali Krayani, Lucio Marcenaro, David Martin Gomez, Carlo Regazzoni

分类: cs.RO, eess.SP, eess.SY

发布日期: 2026-04-30

备注: Submitted to IEEE journal


💡 一句话要点

提出基于主动推理世界模型的自适应无人机集群轨迹规划框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱七:动作重定向 (Motion Retargeting)

关键词: 无人机集群 轨迹规划 主动推理 世界模型 自适应控制

📋 核心要点

  1. 现有无人机集群轨迹规划方法通常计算复杂度高,难以适应动态环境和不确定性。
  2. 该论文提出一种基于主动推理的世界模型,将轨迹规划转化为分层概率推理问题,提升适应性。
  3. 实验表明,该方法在保持专家规划结构的同时,比Q学习产生更平滑稳定的轨迹,并能校正噪声观测。

📝 摘要(中文)

本文提出了一种受专家指导的主动推理框架,用于自适应无人机集群轨迹规划。该方法将多无人机轨迹设计从重复的组合优化问题转化为分层概率推理问题。在离线阶段,采用具有斥力避碰的遗传算法规划器(GA-RF)生成专家演示数据,并将其抽象为任务、路径和运动字典。这些字典用于学习概率世界模型,该模型捕获专家任务分配如何诱导路径顺序,以及路径顺序如何诱导运动级别的行为。在在线操作期间,无人机集群通过形成关于符号状态的后验信念,并最小化基于KL散度的异常指标(相对于专家导出的参考分布)来评估候选动作。这使得任务分配、路径插入、运动适应和避碰重规划成为可能,而无需重新运行离线优化器。运动级别集成了包括EKF和PF模块的贝叶斯状态估计器,以提高不确定性下的轨迹校正。仿真结果表明,所提出的框架保留了类似专家的规划结构,同时产生比改进的Q学习更平滑和更稳定的行为。使用真实飞行无人机轨迹数据的额外验证表明,学习到的世界模型可以校正噪声和非平滑观测下的符号预测,支持其在自适应无人机集群自主中的适用性。

🔬 方法详解

问题定义:现有的无人机集群轨迹规划方法,特别是基于组合优化的方法,计算成本高昂,难以实时适应动态变化的环境和不确定性。此外,如何有效地利用专家知识来指导无人机集群的决策过程也是一个挑战。

核心思路:本文的核心思路是将无人机集群的轨迹规划问题转化为一个分层概率推理问题,并利用主动推理框架来解决。通过学习一个概率世界模型,无人机集群可以根据当前状态和环境信息,推断出最优的行动序列,从而实现自适应的轨迹规划。这种方法借鉴了专家知识,并将其融入到世界模型的学习过程中,从而提高了规划的效率和质量。

技术框架:该框架包含离线学习和在线推理两个阶段。离线阶段,使用遗传算法(GA-RF)生成专家演示数据,并将其抽象为任务、路径和运动字典。然后,利用这些字典学习一个概率世界模型,该模型描述了任务分配、路径顺序和运动行为之间的关系。在线阶段,无人机集群通过形成关于符号状态的后验信念,并最小化KL散度来评估候选动作。同时,集成了贝叶斯状态估计器(EKF和PF)来提高轨迹校正的精度。

关键创新:该方法最重要的创新点在于将主动推理框架引入到无人机集群轨迹规划中,并利用概率世界模型来描述环境和无人机之间的交互关系。与传统的基于优化的方法相比,该方法能够更好地适应动态环境和不确定性,并能够有效地利用专家知识。

关键设计:关键设计包括:1) 使用遗传算法生成专家演示数据;2) 构建任务、路径和运动字典来抽象专家知识;3) 设计概率世界模型来描述任务、路径和运动之间的关系;4) 使用KL散度作为异常指标来评估候选动作;5) 集成EKF和PF模块来提高轨迹校正的精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

仿真结果表明,该方法在保持专家规划结构的同时,比改进的Q学习产生更平滑和更稳定的轨迹。真实飞行无人机轨迹数据的验证表明,学习到的世界模型可以校正噪声和非平滑观测下的符号预测。这些结果验证了该方法在自适应无人机集群自主方面的有效性和潜力。

🎯 应用场景

该研究成果可应用于多种无人机集群任务,例如:搜索救援、环境监测、协同运输等。通过自适应轨迹规划,无人机集群能够更好地应对复杂环境和突发事件,提高任务完成效率和安全性。未来,该技术有望应用于更大规模、更复杂的无人机集群系统,实现更高级别的自主协同。

📄 摘要(原文)

This paper presents an expert-guided active-inference-inspired framework for adaptive UAV swarm trajectory planning. The proposed method converts multi-UAV trajectory design from a repeated combinatorial optimization problem into a hierarchical probabilistic inference problem. In the offline phase, a genetic-algorithm planner with repulsive-force collision avoidance (GA--RF) generates expert demonstrations, which are abstracted into Mission, Route, and Motion dictionaries. These dictionaries are used to learn a probabilistic world model that captures how expert mission allocations induce route orders and how route orders induce motion-level behaviors. During online operation, the UAV swarm evaluates candidate actions by forming posterior beliefs over symbolic states and minimizing KL-divergence-based abnormality indicators with respect to expert-derived reference distributions. This enables mission allocation, route insertion, motion adaptation, and collision-aware replanning without rerunning the offline optimizer. Bayesian state estimators, including EKF and PF modules, are integrated at the motion level to improve trajectory correction under uncertainty. Simulation results show that the proposed framework preserves expert-like planning structure while producing smoother and more stable behavior than modified Q-learning. Additional validation using real-flight UAV trajectory data demonstrates that the learned world model can correct symbolic predictions under noisy and non-smooth observations, supporting its applicability to adaptive UAV swarm autonomy.