MDM: Advancing Multi-Domain Distribution Matching for Automatic Modulation Recognition Dataset Synthesis

📄 arXiv: 2408.02714v1 📥 PDF

作者: Dongwei Xu, Jiajun Chen, Yao Lu, Tianhao Xia, Qi Xuan, Wei Wang, Yun Lin, Xiaoniu Yang

分类: cs.LG, cs.AI

发布日期: 2024-08-05


💡 一句话要点

提出MDM:一种用于自动调制识别数据集合成的多域分布匹配方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion)

关键词: 自动调制识别 数据集蒸馏 多域分布匹配 信号处理 深度学习

📋 核心要点

  1. 深度学习在自动调制识别中依赖大规模数据集,导致存储、传输和训练压力。
  2. MDM方法通过在时域和频域进行分布匹配,合成小规模但性能保持的AMR数据集。
  3. 实验表明,MDM在相同压缩比下优于基线,且合成数据集在不同模型上泛化性良好。

📝 摘要(中文)

近年来,深度学习技术已成功应用于自动调制识别(AMR)任务。然而,深度学习的成功很大程度上归功于大规模数据集的训练。如此庞大的数据量给存储、传输和模型训练带来了巨大的压力。为了解决数据量大的问题,一些研究人员提出了数据蒸馏的方法,旨在将大型训练数据压缩成更小的合成数据集,以保持其性能。虽然在图像处理领域已经开发了许多数据蒸馏技术,但信号的独特特征使其与图像有所不同。信号在各个域中表现出不同的特征,因此需要专门的方法进行分析和处理。为此,本文提出了一种新的数据集蒸馏方法——多域分布匹配(MDM)。MDM采用离散傅里叶变换(DFT)将时域信号转换为频域信号,然后使用模型计算合成数据集和真实数据集之间的分布匹配损失,同时考虑时域和频域。最终,这两个损失被整合起来以更新合成数据集。我们在三个AMR数据集上进行了大量实验。实验结果表明,与基线方法相比,我们的方法在相同的压缩比下取得了更好的性能。此外,我们还在多个模型上进行了跨架构泛化实验,实验结果表明,我们的合成数据集可以在其他未见过的模型上很好地泛化。

🔬 方法详解

问题定义:自动调制识别(AMR)任务依赖于大规模数据集进行深度学习模型训练,但这些数据集带来了巨大的存储、传输和训练负担。现有数据蒸馏方法主要集中在图像领域,无法有效处理信号在不同域(时域和频域)的独特特征,导致合成数据集的性能和泛化能力受限。

核心思路:MDM的核心思路是在时域和频域同时进行分布匹配,从而生成更具代表性的合成数据集。通过离散傅里叶变换(DFT)将时域信号转换到频域,并分别计算两个域的分布匹配损失,从而捕捉信号在不同域的特征。这种多域匹配能够更好地保留原始数据集的信息,提高合成数据集的性能和泛化能力。

技术框架:MDM方法包含以下主要步骤:1) 使用真实数据集训练一个初始模型;2) 初始化一个小的合成数据集;3) 使用DFT将合成数据集和真实数据集的信号转换到频域;4) 使用初始模型计算合成数据集和真实数据集在时域和频域的分布匹配损失;5) 将两个损失加权求和,并使用梯度下降更新合成数据集;6) 重复步骤3-5,直到合成数据集收敛。

关键创新:MDM的关键创新在于提出了多域分布匹配的思想,将时域和频域的信息同时纳入数据集蒸馏过程中。与传统的仅在时域或频域进行匹配的方法相比,MDM能够更全面地捕捉信号的特征,从而生成更具代表性的合成数据集。此外,MDM方法具有较强的通用性,可以应用于不同的AMR数据集和模型。

关键设计:MDM的关键设计包括:1) 使用DFT进行时域到频域的转换;2) 使用预训练模型计算分布匹配损失,损失函数可以选择KL散度、JS散度等;3) 对时域和频域的损失进行加权求和,权重系数需要根据具体数据集进行调整;4) 使用Adam等优化器更新合成数据集。合成数据集的大小(即压缩比)是影响性能的重要参数,需要在实验中进行调整。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,在三个AMR数据集上,MDM方法在相同压缩比下优于基线方法。例如,在Dataset1上,MDM相比最佳基线方法提升了2-3个百分点。此外,跨架构泛化实验表明,MDM合成的数据集在不同模型上表现良好,验证了其泛化能力。这些结果表明,MDM是一种有效的数据集蒸馏方法,可以生成高质量的合成数据集。

🎯 应用场景

MDM方法可应用于自动调制识别、频谱感知、无线通信等领域,通过合成小规模数据集,降低数据存储和传输成本,加速模型训练,并保护原始数据的隐私。该方法还可用于生成对抗样本,提高模型的鲁棒性。未来,MDM有望扩展到其他信号处理任务,例如语音识别、生物信号分析等。

📄 摘要(原文)

Recently, deep learning technology has been successfully introduced into Automatic Modulation Recognition (AMR) tasks. However, the success of deep learning is all attributed to the training on large-scale datasets. Such a large amount of data brings huge pressure on storage, transmission and model training. In order to solve the problem of large amount of data, some researchers put forward the method of data distillation, which aims to compress large training data into smaller synthetic datasets to maintain its performance. While numerous data distillation techniques have been developed within the realm of image processing, the unique characteristics of signals set them apart. Signals exhibit distinct features across various domains, necessitating specialized approaches for their analysis and processing. To this end, a novel dataset distillation method--Multi-domain Distribution Matching (MDM) is proposed. MDM employs the Discrete Fourier Transform (DFT) to translate timedomain signals into the frequency domain, and then uses a model to compute distribution matching losses between the synthetic and real datasets, considering both the time and frequency domains. Ultimately, these two losses are integrated to update the synthetic dataset. We conduct extensive experiments on three AMR datasets. Experimental results show that, compared with baseline methods, our method achieves better performance under the same compression ratio. Furthermore, we conduct crossarchitecture generalization experiments on several models, and the experimental results show that our synthetic datasets can generalize well on other unseen models.