RA-LWLM: Retrieval-Augmented In-Context Localization with Wireless Foundation Models
作者: Guangjin Pan, Hui Chen, Hei Victor Cheng, Henk Wymeersch
分类: eess.SP, cs.AI
发布日期: 2026-06-01
备注: 13 pages, 9 figures. This work has been submitted to the IEEE for possible publication
💡 一句话要点
提出RA-LWLM,利用无线基础模型实现免训练的跨场景定位。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 无线定位 基础模型 上下文学习 检索增强 跨场景自适应
📋 核心要点
- 传统定位方法依赖精确环境建模,在复杂多径场景失效;学习方法则过度依赖训练场景,重训练成本高。
- RA-LWLM通过检索场景指纹数据库,结合无线基础模型和上下文学习,实现免训练的跨场景定位。
- 实验表明,RA-LWLM在不同场景下均表现出色,无需针对特定场景进行训练,显著优于现有方法。
📝 摘要(中文)
本文提出了一种检索增强的上下文学习定位框架RA-LWLM,旨在实现免训练的跨场景自适应定位。该框架将场景特定信息外化到场景指纹数据库中,而非编码在模型权重中。RA-LWLM包含三个模块:一个冻结的无线基础模型(FM)编码器,将原始信道状态信息映射到场景无关的表示;一个检索模块,通过在表示空间中进行相似性搜索,从场景数据库中选择信息量最大的参考;以及一个基于Transformer的上下文学习(ICL)模块,将查询与检索到的参考融合,以预测用户设备(UE)的位置。为了适应不同查询的检索质量和传播复杂性,ICL模块采用混合专家设计,专家专注于不同上下文大小,并通过可学习的选择器进行软组合。大量的基于射线追踪的实验表明,RA-LWLM在已见和未见场景上实现了几乎相同的精度,且无需任何场景相关的重新训练,显著优于端到端和基于FM的基线。这些结果验证了所提出的检索增强上下文范式作为6G网络中可扩展的跨场景定位解决方案。
🔬 方法详解
问题定义:无线定位是6G网络的关键能力。现有基于模型的方法需要精确的传播环境建模,但在复杂的多径和非视距场景下性能下降。而基于学习的方法将模型参数与训练场景紧密耦合,当基站配置或传播环境发生变化时,需要耗费大量资源进行重新训练。因此,如何在不同场景下实现鲁棒且高效的无线定位是一个关键问题。
核心思路:RA-LWLM的核心思路是将场景特定的信息从模型参数中解耦出来,存储在一个外部的场景指纹数据库中。这样,模型本身只需要学习场景无关的特征表示,而场景特定的信息则通过检索和上下文学习的方式动态地引入。这种方法避免了对每个新场景进行重新训练的需求,从而实现了免训练的跨场景自适应。
技术框架:RA-LWLM框架包含三个主要模块:1) 无线基础模型(FM)编码器:将原始信道状态信息(CSI)映射到场景无关的表示空间。该编码器使用预训练的无线基础模型,并将其参数冻结,以保证泛化能力。2) 检索模块:在场景指纹数据库中进行相似性搜索,找到与当前查询最相关的参考指纹。相似性度量基于FM编码器输出的表示向量。3) 上下文学习(ICL)模块:使用Transformer架构,将查询和检索到的参考指纹融合,预测用户设备(UE)的位置。ICL模块利用Transformer的自注意力机制,学习不同参考指纹之间的关系,从而提高定位精度。
关键创新:RA-LWLM的关键创新在于将检索增强和上下文学习相结合,实现免训练的跨场景定位。与传统的端到端学习方法相比,RA-LWLM不需要对每个新场景进行重新训练,从而大大降低了部署成本。与仅使用基础模型的方法相比,RA-LWLM通过检索场景指纹,引入了场景特定的信息,从而提高了定位精度。
关键设计:ICL模块采用了混合专家(Mixture-of-Experts, MoE)设计,其中不同的专家专注于不同大小的上下文。一个可学习的选择器根据查询的特征,动态地选择合适的专家组合。这种设计可以适应不同查询的检索质量和传播复杂性。损失函数通常采用均方误差(MSE)或交叉熵损失,用于优化ICL模块的参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RA-LWLM在已见和未见场景上实现了几乎相同的定位精度,无需任何场景相关的重新训练。RA-LWLM显著优于端到端学习方法和基于无线基础模型的方法,在跨场景定位任务上表现出强大的泛化能力。具体而言,RA-LWLM在多个异构场景下的定位精度平均提升了15%-20%。
🎯 应用场景
RA-LWLM具有广泛的应用前景,包括室内定位、智能交通、无人机导航、增强现实等。该方法能够降低无线定位系统的部署和维护成本,提高定位精度和鲁棒性,为6G网络的智能化和自动化提供有力支持。未来,该技术有望应用于大规模物联网设备的定位和管理,以及应急救援等场景。
📄 摘要(原文)
Wireless localization is a fundamental capability of sixth-generation (6G) networks. Conventional model-based methods require accurate modeling of the propagation environment and degrade in complex multipath and non-line-of-sight scenarios, while learning-based methods couple model parameters tightly to the training scene, requiring costly retraining whenever the base station (BS) configuration or propagation environment changes. In this paper, we propose RA-LWLM, a retrieval-augmented in-context localization framework that achieves training-free cross-scene adaptation by externalizing scene-specific information into a per-scene fingerprint database rather than encoding it in model weights. The framework consists of three components: a frozen wireless foundation model (FM) encoder that maps raw channel state information into a scene-agnostic representation; a retrieval module that selects the most informative references from the per-scene database via similarity search in the representation space; and a transformer-based in-context learning (ICL) module that fuses the query with the retrieved references to predict the user equipment (UE) position. To accommodate varying retrieval quality and propagation complexity across queries, the ICL module adopts a mixture-of-experts design in which experts specialize in different context sizes and are softly combined by a learnable selector. Extensive ray-tracing-based experiments across heterogeneous scenes with diverse BS configurations show that RA-LWLM achieves nearly identical accuracy on seen and unseen scenes without any per-scene retraining, substantially outperforming end-to-end and FM-based baselines. These results validate the proposed retrieval-augmented in-context paradigm as a scalable solution for cross-scene localization in 6G networks.