LatentWave: JEPA Pretraining for Wireless Foundation Models

📄 arXiv: 2606.06373v1 📥 PDF

作者: Ahmed Mohamed, Ahmed Aboulfotouh, Hatem Abou-Zeid

分类: eess.SP, cs.AI

发布日期: 2026-06-04


💡 一句话要点

提出LatentWave以解决无线任务模型偏差问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 无线基础模型 联合嵌入预测 信号分类 5G定位 多任务学习 潜在空间表示 异构无线配置

📋 核心要点

  1. 现有无线模型方法依赖掩码重建,导致表示偏向低级信号细节,影响任务迁移性。
  2. LatentWave通过JEPA在无线频谱图和CSI上进行预训练,预测潜在空间中的掩码区域以学习可迁移表示。
  3. 在四个下游任务上评估LatentWave,结果显示其在信号分类、5G定位等任务上优于基线模型。

📝 摘要(中文)

无线基础模型作为构建各类无线任务的有力替代方案,然而现有方法依赖于掩码输入重建,可能导致表示偏向低级信号细节。本文提出LatentWave,采用联合嵌入预测架构(JEPA)在多样化的无线频谱图和信道状态信息(CSI)上进行预训练。通过预测潜在空间中的掩码区域,LatentWave学习到更具可迁移性的表示,适用于多种下游任务。该架构在预训练期间采用每通道的补丁嵌入和随机信道采样,能够处理可变天线数量,提升了在异构无线配置中的可用性。我们在四个下游任务上评估LatentWave,并与在相同数据上预训练的掩码建模基线(WavesFM)进行比较。

🔬 方法详解

问题定义:现有无线模型方法主要依赖掩码输入重建,导致模型在表示学习时偏向于低级信号细节,影响其在不同无线任务中的迁移能力。

核心思路:LatentWave通过联合嵌入预测架构(JEPA)在多样化的无线频谱图和信道状态信息(CSI)上进行预训练,旨在通过预测潜在空间中的掩码区域来学习更具可迁移性的表示。

技术框架:该模型采用每通道的补丁嵌入和随机信道采样的方式进行预训练,能够处理可变天线数量,适应不同的无线配置。整体架构包括数据预处理、潜在空间掩码预测和下游任务评估三个主要模块。

关键创新:LatentWave的核心创新在于其通过潜在空间的掩码预测来学习表示,这一方法与传统的掩码重建方法有本质区别,能够更好地适应多样化的下游任务。

关键设计:在模型设计中,采用了随机信道采样和每通道补丁嵌入的策略,确保模型能够处理不同数量的天线,并在损失函数中引入了任务相关的掩码几何结构,以增强模型的任务适应性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LatentWave在四个下游任务上表现优异,尤其在RF信号分类和5G NR定位任务中,相较于基线模型WavesFM,性能提升显著,验证了其在不同任务中的有效性和可迁移性。

🎯 应用场景

LatentWave的研究成果在无线通信、智能交通、物联网等领域具有广泛的应用潜力。通过提高模型的可迁移性和适应性,该模型能够在多种无线任务中实现更高的性能,推动无线技术的进步与发展。

📄 摘要(原文)

Wireless foundation models have emerged as a promising alternative to building separate models for each wireless task. However, existing approaches rely on masked input reconstruction, which can bias representations toward low-level signal details. In this paper, we propose LatentWave, a wireless foundation model pretrained using a Joint-Embedding Predictive Architecture (JEPA) on diverse wireless spectrograms and channel state information (CSI). By predicting masked regions in latent space, LatentWave learns representations that are more transferable out of the box across diverse downstream tasks. The proposed architecture employs per-channel patch embeddings with stochastic channel sampling during pretraining, allowing it to process variable antenna counts and improving usability across heterogeneous wireless configurations. We evaluate LatentWave on four downstream tasks: RF signal classification, 5G NR positioning, beam prediction, and LoS/NLoS classification, comparing against a masked-modeling baseline (WavesFM) pretrained on the same data. Additionally, we show that the masking geometry introduces a task-dependent inductive bias: frequency masking strongly favors channel-related tasks such as positioning and beam prediction, while region masking better preserves discriminability for signal classification.