The Radio-Frequency Transformer for Signal Separation

作者: Egor Lifar, Semyon Savkin, Rachana Madhukara, Tejas Jayashankar, Yury Polyanskiy, Gregory W. Wornell

分类: cs.LG

发布日期: 2026-03-10

💡 一句话要点

提出基于Transformer的射频信号分离器，显著降低信号误码率。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion)

关键词: 信号分离 Transformer 射频信号处理 深度学习 离散表示

📋 核心要点

现有信号分离方法难以有效处理未知非高斯干扰，导致性能下降。
提出一种基于Transformer的射频信号分离器，通过学习SOI的离散表示并进行端到端训练，实现信号分离。
实验表明，该方法在射频信号分离任务中显著降低了误码率，并具有良好的泛化能力。

📝 摘要（中文）

本文研究了信号分离问题，即从受未知非高斯背景/干扰污染的信号中估计感兴趣信号（SOI）。给定包含SOI和干扰样本的训练数据，我们展示了如何构建一个完全数据驱动的信号分离器。为此，我们为SOI学习一个良好的离散tokenizer，然后在交叉熵损失上训练一个端到端的Transformer。与传统的均方误差（MSE）相比，使用交叉熵进行训练显示出显著的改进。我们的tokenizer是Google SoundStream的修改版，它结合了额外的Transformer层，并将VQVAE切换到有限标量量化（FSQ）。在来自MIT RF Challenge数据集的真实和合成混合信号上，我们的方法实现了有竞争力的性能，包括在将QPSK信号从5G干扰中分离出来时，误码率（BER）比先前的最先进技术降低了122倍。学习到的表示适应于干扰类型，无需辅助信息，并在推理时显示出对未见混合信号的零样本泛化能力，突显了其在射频之外的潜力。虽然我们在射频混合信号上实例化了我们的方法，但我们期望相同的架构适用于引力波数据（例如，LIGO应变）和其他需要对背景和噪声进行数据驱动建模的科学传感问题。

🔬 方法详解

问题定义：论文旨在解决信号分离问题，具体是从被未知非高斯背景噪声或干扰污染的信号中提取出目标信号（SOI）。传统方法，如基于均方误差（MSE）的训练，在处理复杂、非高斯干扰时表现不佳，难以有效分离信号。

核心思路：论文的核心思路是利用Transformer强大的序列建模能力，学习SOI的离散表示，并基于交叉熵损失进行端到端训练。通过学习SOI的tokenizer，将连续信号转换为离散token序列，从而更好地捕捉信号的结构信息，并提高对干扰的鲁棒性。

技术框架：整体框架包含两个主要阶段：1) SOI tokenizer学习阶段：使用改进的SoundStream架构，将SOI信号转换为离散token序列。该tokenizer包含额外的Transformer层，并使用有限标量量化（FSQ）代替VQVAE。2) 端到端Transformer训练阶段：使用tokenizer提取的token序列作为输入，训练一个Transformer网络，以最小化交叉熵损失为目标，实现信号分离。

关键创新：最重要的创新点在于将Transformer架构应用于信号分离任务，并使用离散token表示SOI信号。与传统的基于MSE的训练方法相比，基于交叉熵损失的训练能够更好地处理非高斯干扰，并提高信号分离的准确性。此外，改进的SoundStream tokenizer和FSQ的使用也提升了表示学习的性能。

关键设计：tokenizer基于SoundStream架构，但增加了额外的Transformer层以增强建模能力。使用有限标量量化（FSQ）代替VQVAE，简化了量化过程。训练过程中使用交叉熵损失，鼓励网络学习区分SOI和干扰。Transformer网络的具体结构（层数、头数等）以及训练参数（学习率、batch size等）需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在MIT RF Challenge数据集上取得了显著的性能提升。在将QPSK信号从5G干扰中分离出来时，误码率（BER）比先前的最先进技术降低了122倍。此外，该方法还表现出良好的零样本泛化能力，能够适应未见过的干扰类型，无需额外的辅助信息。

🎯 应用场景

该研究成果可应用于无线通信、雷达信号处理、生物医学信号处理等领域，尤其是在复杂电磁环境下进行信号提取和干扰抑制。例如，可用于提高无线通信系统的抗干扰能力，或从复杂的脑电信号中提取特定认知状态的信号。该方法还可能扩展到引力波数据分析等科学领域，用于建模背景噪声并提取有效信号。

📄 摘要（原文）

We study a problem of signal separation: estimating a signal of interest (SOI) contaminated by an unknown non-Gaussian background/interference. Given the training data consisting of examples of SOI and interference, we show how to build a fully data-driven signal separator. To that end we learn a good discrete tokenizer for SOI and then train an end-to-end transformer on a cross-entropy loss. Training with a cross-entropy shows substantial improvements over the conventional mean-squared error (MSE). Our tokenizer is a modification of Google's SoundStream, which incorporates additional transformer layers and switches from VQVAE to finite-scalar quantization (FSQ). Across real and synthetic mixtures from the MIT RF Challenge dataset, our method achieves competitive performance, including a 122x reduction in bit-error rate (BER) over prior state-of-the-art techniques for separating a QPSK signal from 5G interference. The learned representation adapts to the interference type without side information and shows zero-shot generalization to unseen mixtures at inference time, underscoring its potential beyond RF. Although we instantiate our approach on radio-frequency mixtures, we expect the same architecture to apply to gravitational-wave data (e.g., LIGO strain) and other scientific sensing problems that require data-driven modeling of background and noise.

The Radio-Frequency Transformer for Signal Separation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理