Agentic AI for Embodied-enhanced Beam Prediction in Low-Altitude Economy Networks

📄 arXiv: 2603.11392v1 📥 PDF

作者: Min Hao, Zhizhuo Li, Zirui Zhang, Maoqiang Wu, Han Zhang, Rong Yu

分类: cs.NI, cs.AI

发布日期: 2026-03-12


💡 一句话要点

提出基于Agentic AI的混合波束预测模型,提升低空经济网络中无人机通信的波束预测精度。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic AI 波束预测 低空经济网络 无人机通信 多模态融合

📋 核心要点

  1. 毫米波/太赫兹通信面临无人机高移动性带来的波束预测挑战,传统方法难以适应复杂环境。
  2. 利用Agentic AI,设计多智能体协作推理架构,将波束预测分解为可控的任务流程。
  3. 提出混合波束预测模型,融合无人机运动信息和视觉数据,提升预测精度和鲁棒性。

📝 摘要(中文)

本文针对低空经济网络中毫米波或太赫兹通信对高吞吐量感知和实时决策的需求,以及无人机高移动性场景下波束预测的挑战,提出了一种基于Agentic AI的毫米波基站具身智能转型方案。设计了一种用于无人机对地毫米波通信的多智能体协作推理架构,并提出了一个基于双模态数据的混合波束预测模型系统。该架构通过将波束预测分解为任务分析、解决方案规划和完整性评估,克服了大语言模型(LLM)推理的上下文窗口限制和弱可控性问题。混合模型系统集成了基于Mamba的时间建模、卷积视觉编码和基于交叉注意力的多模态融合,并在多智能体指导下动态切换数据流策略。在真实无人机毫米波通信数据集上的大量仿真表明,所提出的架构和系统在各种数据条件下均实现了较高的预测精度和鲁棒性,最高Top-1精度达到96.57%。

🔬 方法详解

问题定义:论文旨在解决低空经济网络中,无人机(UAV)毫米波通信的波束预测问题。由于毫米波/太赫兹通信的频率特性,无线信道存在严重的传播损耗和强波束方向性,这使得在高移动性的无人机场景下进行准确的波束预测变得极具挑战。现有方法难以有效利用多模态数据,并且缺乏对复杂环境的适应性。

核心思路:论文的核心思路是利用Agentic AI将毫米波基站转变为具有具身智能的实体。通过设计一个多智能体协作推理架构,将复杂的波束预测任务分解为更小、更易于管理的子任务,例如任务分析、解决方案规划和完整性评估。这种分解能够克服传统大语言模型(LLM)在处理长序列和复杂推理时的局限性,提高预测的可控性和准确性。

技术框架:整体架构包含多智能体协作推理模块和混合波束预测模型系统。多智能体模块负责任务分解和调度,指导混合模型系统的数据流策略。混合模型系统接收来自无人机的多模态数据,包括数值型的运动信息和视觉观测数据。该系统包含Mamba时间建模模块、卷积视觉编码模块和基于交叉注意力的多模态融合模块。

关键创新:论文的关键创新在于将Agentic AI引入到毫米波波束预测中,并设计了多智能体协作推理架构。这种架构能够有效地分解复杂任务,提高预测的可控性和鲁棒性。此外,混合波束预测模型系统能够融合多模态数据,并根据多智能体的指导动态调整数据流策略,从而更好地适应不同的环境条件。

关键设计:Mamba模块用于时间序列建模,捕捉无人机的运动轨迹信息。卷积神经网络(CNN)用于视觉特征提取,编码无人机周围环境的视觉信息。交叉注意力机制用于融合运动信息和视觉信息,实现多模态数据的有效交互。损失函数未知,数据流切换策略的具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在真实无人机毫米波通信数据集上的仿真结果表明,所提出的架构和系统在各种数据条件下均实现了较高的预测精度和鲁棒性。最高Top-1精度达到96.57%,相较于传统方法有显著提升。实验结果验证了Agentic AI和混合模型在波束预测中的有效性。

🎯 应用场景

该研究成果可应用于低空经济网络中的无人机通信,例如物流配送、环境监测、城市管理等领域。通过提高波束预测的精度和鲁棒性,可以提升通信质量,降低通信中断的风险,从而支持更可靠、更高效的无人机应用。未来,该技术有望扩展到其他高移动性场景,例如车载通信、卫星通信等。

📄 摘要(原文)

Millimeter-wave or terahertz communications can meet demands of low-altitude economy networks for high-throughput sensing and real-time decision making. However, high-frequency characteristics of wireless channels result in severe propagation loss and strong beam directivity, which make beam prediction challenging in highly mobile uncrewed aerial vehicles (UAV) scenarios. In this paper, we employ agentic AI to enable the transformation of mmWave base stations toward embodied intelligence. We innovatively design a multi-agent collaborative reasoning architecture for UAV-to-ground mmWave communications and propose a hybrid beam prediction model system based on bimodal data. The multi-agent architecture is designed to overcome the limited context window and weak controllability of large language model (LLM)-based reasoning by decomposing beam prediction into task analysis, solution planning, and completeness assessment. To align with the agentic reasoning process, a hybrid beam prediction model system is developed to process multimodal UAV data, including numeric mobility information and visual observations. The proposed hybrid model system integrates Mamba-based temporal modelling, convolutional visual encoding, and cross-attention-based multimodal fusion, and dynamically switches data-flow strategies under multi-agent guidance. Extensive simulations on a real UAV mmWave communication dataset demonstrate that proposed architecture and system achieve high prediction accuracy and robustness under diverse data conditions, with maximum top-1 accuracy reaching 96.57%.