LLM-AUG: Robust Wireless Data Augmentation with In-Context Learning in Large Language Models

📄 arXiv: 2604.17770v1 📥 PDF

作者: Pranshav Gajjar, Manan Tiwari, Sayanta Seth, Vijay K. Shah

分类: cs.LG

发布日期: 2026-04-20


💡 一句话要点

提出LLM-AUG以解决无线通信数据稀缺问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 数据增强 无线通信 深度学习 大型语言模型 合成样本 低样本学习 鲁棒性

📋 核心要点

  1. 数据稀缺是无线通信深度学习应用中的主要挑战,尤其在标记数据收集成本高昂的情况下。
  2. LLM-AUG通过大型语言模型的上下文学习生成合成训练样本,避免了传统方法的任务特定模型训练需求。
  3. 实验表明,LLM-AUG在低样本设置下显著优于传统增强方法,且在多个数据集上实现了显著的性能提升。

📝 摘要(中文)

数据稀缺是深度学习在无线通信问题应用中的一个基本瓶颈,尤其是在收集标记的射频数据成本高、耗时长或受限于操作的场景下。本文提出了LLM-AUG,一个利用大型语言模型中的上下文学习生成合成训练样本的数据增强框架。与传统的生成方法不同,LLM-AUG通过结构化提示进行数据生成,能够在低样本情况下快速适应。实验结果表明,LLM-AUG在调制分类和干扰分类任务中,均优于传统增强和深度生成基线,并在仅使用15%标记数据的情况下接近oracle性能。LLM-AUG在分布转移下表现出更强的鲁棒性,相较于扩散基础增强在低信噪比下获得了29.4%的相对增益。

🔬 方法详解

问题定义:本文旨在解决无线通信领域中数据稀缺的问题,现有方法通常依赖于昂贵的标记数据收集,限制了深度学习的应用效果。

核心思路:LLM-AUG利用大型语言模型的上下文学习能力,通过结构化提示生成合成样本,快速适应低样本学习场景,避免了传统生成模型的训练需求。

技术框架:LLM-AUG的整体架构包括数据生成模块和样本增强模块。数据生成模块通过输入提示生成合成样本,样本增强模块则对生成的样本进行处理,以提高模型的学习效果。

关键创新:LLM-AUG的主要创新在于利用大型语言模型的上下文学习能力进行数据增强,与传统方法相比,减少了对任务特定模型的依赖,提升了数据生成的灵活性和效率。

关键设计:在设计中,LLM-AUG采用了结构化提示作为输入,优化了生成样本的质量,并通过调整生成样本的数量和质量来提高模型的鲁棒性和泛化能力。具体的损失函数和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,LLM-AUG在调制分类和干扰分类任务中,分别相较于扩散基础方法获得67.6%和35.7%的相对增益。此外,在低信噪比条件下,LLM-AUG表现出29.4%的相对提升,验证了其在数据稀缺情况下的有效性和鲁棒性。

🎯 应用场景

该研究的潜在应用领域包括无线通信、物联网和智能交通等领域,能够有效解决数据稀缺问题,提升模型在动态环境中的学习能力。未来,LLM-AUG可能推动更多基于数据驱动的无线通信技术的发展,促进智能化无线网络的构建。

📄 摘要(原文)

Data scarcity remains a fundamental bottleneck in applying deep learning to wireless communication problems, particularly in scenarios where collecting labeled Radio Frequency (RF) data is expensive, time-consuming, or operationally constrained. This paper proposes LLM-AUG, a data augmentation framework that leverages in-context learning in large language models (LLMs) to generate synthetic training samples directly in a learned embedding space. Unlike conventional generative approaches that require training task-specific models, LLM-AUG performs data generation through structured prompting, enabling rapid adaptation in low-shot regimes. We evaluate LLM-AUG on two representative tasks: modulation classification and interference classification using the RadioML 2016.10A dataset, and the Interference Classification (IC) dataset respectively. Results show that LLM-AUG consistently outperforms traditional augmentation and deep generative baselines across low-shot settings and reaches near oracle performance using only 15% labeled data. LLM-AUG further demonstrates improved robustness under distribution shifts, yielding a 29.4% relative gain over diffusion-based augmentation at a lower SNR value. On the RadioML and IC datasets, LLM-AUG yields a relative gain of 67.6% and 35.7% over the diffusion-based baseline. The t-SNE visualizations further validate that synthetic samples generated by better preserve class structure in the embedding space, leading to more consistent and informative augmentations. These results demonstrate that LLMs can serve as effective and practical data augmenters for wireless machine learning, enabling robust and data-efficient learning in evolving wireless environments.