6G WavesFM: A Foundation Model for Sensing, Communication, and Localization

📄 arXiv: 2504.14100v1 📥 PDF

作者: Ahmed Aboulfotouh, Elsayed Mohammed, Hatem Abou-Zeid

分类: eess.SP, cs.AI, cs.LG

发布日期: 2025-04-18


💡 一句话要点

WavesFM:用于通信、感知和定位的6G无线通信基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无线通信 基础模型 6G网络 Vision Transformer 低秩适应 参数共享 多任务学习

📋 核心要点

  1. 现有无线通信系统针对特定任务设计,缺乏通用性和效率,难以适应6G网络多样化需求。
  2. WavesFM通过共享ViT骨干和LoRA微调,实现跨通信、感知和定位任务的知识迁移和参数共享。
  3. 实验表明,WavesFM在多个任务上超越了独立训练的模型,并显著减少了训练时间和资源消耗。

📝 摘要(中文)

本文提出了一种新颖的无线基础模型(WFM)框架WavesFM,它能够支持各种通信、感知和定位任务。该架构结合了共享的Vision Transformer(ViT)骨干网络与特定任务的多层感知器(MLP)头部,并结合了低秩适应(LoRA)进行参数高效的微调。这种设计促进了跨任务的完全参数共享,显著降低了计算和内存占用,同时不牺牲性能。该模型处理图像类无线模态(如频谱图和信道状态信息(CSI))以及排列为正交频分复用(OFDM)资源网格的同相和正交(IQ)信号。通过在四个下游任务(第五代新无线电(5G NR)定位、多输入多输出OFDM(MIMO-OFDM)信道估计、人体活动感知和射频(RF)信号分类)上的大量实验,证明了WavesFM强大的泛化能力。与单独训练的监督基线相比,该方法在跨任务共享80%参数的同时,实现了卓越的性能。此外,预训练在领域相关数据上不仅提高了性能,还加速了收敛,将训练时间缩短了高达5倍。这些结果表明,统一的WFM可以支持各种任务,并在性能和效率方面提供显著的提升,突出了基础模型在推动未来第六代(6G)网络中AI原生范式的变革潜力。

🔬 方法详解

问题定义:现有无线通信系统通常针对特定任务进行设计和优化,导致系统复杂性高、资源利用率低,难以适应未来6G网络中日益增长的多样化应用需求。每个任务都需要单独的数据收集、模型训练和部署,成本高昂且效率低下。

核心思路:WavesFM的核心思路是利用无线通信领域的数据共性,构建一个通用的基础模型,通过参数共享和高效微调,使其能够适应各种通信、感知和定位任务。通过预训练学习通用的无线信号表示,然后针对特定任务进行微调,从而实现知识迁移和性能提升。

技术框架:WavesFM的整体架构包括三个主要部分:(1) 共享的Vision Transformer (ViT) 骨干网络,用于提取输入无线信号的通用特征表示;(2) 任务特定的多层感知器 (MLP) 头部,用于将通用特征映射到特定任务的输出;(3) 低秩适应 (LoRA) 模块,用于在微调过程中高效地调整模型参数。输入可以是图像类无线模态(如频谱图、CSI)或IQ信号的OFDM资源网格。

关键创新:WavesFM的关键创新在于其统一的无线基础模型框架,能够同时处理多种无线信号模态,并支持多种不同的无线通信任务。通过共享ViT骨干网络和LoRA微调,实现了跨任务的知识迁移和参数共享,显著降低了模型的复杂度和训练成本。与传统方法相比,WavesFM无需为每个任务单独训练模型,从而大大提高了开发效率和资源利用率。

关键设计:ViT骨干网络采用标准的Transformer结构,将输入信号分割成patch并进行线性嵌入。LoRA模块通过引入低秩矩阵来近似参数更新,从而减少了微调所需的参数量。损失函数根据具体任务选择,例如,定位任务使用均方误差,分类任务使用交叉熵损失。实验中,ViT的patch size和LoRA的秩等参数会影响模型的性能,需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

WavesFM在5G NR定位、MIMO-OFDM信道估计、人体活动感知和RF信号分类四个下游任务上进行了评估。实验结果表明,WavesFM在共享80%参数的情况下,性能优于单独训练的监督基线。此外,预训练在领域相关数据上可以将训练时间缩短高达5倍,显著提高了训练效率。

🎯 应用场景

WavesFM可广泛应用于未来的6G网络,例如智能交通、智慧城市、工业自动化等领域。它可以支持各种无线通信任务,如设备定位、信道估计、环境感知和异常检测。通过降低模型复杂度和训练成本,WavesFM有望加速AI在无线通信领域的普及和应用,推动AI原生6G网络的实现。

📄 摘要(原文)

This paper introduces WavesFM, a novel Wireless Foundation Model (WFM) framework, capable of supporting a wide array of communication, sensing, and localization tasks. Our proposed architecture combines a shared Vision Transformer (ViT) backbone with task-specific multi-layer perceptron (MLP) heads and incorporates Low-Rank Adaptation (LoRA) for parameter-efficient fine-tuning. This design promotes full parameter sharing across tasks, significantly reducing the computational and memory footprint without sacrificing performance. The model processes both image-like wireless modalities, such as spectrograms and channel state information (CSI), and in-phase and quadrature (IQ) signals arranged as orthogonal frequency-division multiplexing (OFDM) resource grids. We demonstrate the strong generalization capabilities of WavesFM through extensive experiments on four downstream tasks: Fifth Generation New Radio (5G NR) positioning; multiple-input multiple-output OFDM (MIMO-OFDM) channel estimation; human activity sensing; and radio-frequency (RF) signal classification. Compared to supervised baselines trained individually, our approach achieves superior performance while sharing 80% of its parameters across tasks. Furthermore, we show that pretraining on domain-relevant data not only boosts performance but also accelerates convergence, reducing training time by up to 5x. These results demonstrate that our unified WFM can support diverse tasks and deliver significant gains in both performance and efficiency, highlighting the transformative potential of foundation models to drive AI-native paradigms in future sixth-generation (6G) networks.