Land-then-transport: A Flow Matching-Based Generative Decoder for Wireless Image Transmission

📄 arXiv: 2601.07512v1 📥 PDF

作者: Jingwen Fu, Ming Xiao, Mikael Skoglund, Dong In Kim

分类: cs.LG, eess.IV

发布日期: 2026-01-12


💡 一句话要点

提出基于流匹配的生成解码器以解决无线图像传输问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 无线图像传输 生成解码器 流匹配 低延迟解码 信道感知 高斯平滑路径 条件流匹配 ODE解码器

📋 核心要点

  1. 现有的无线图像传输方法在低延迟和高可靠性方面存在显著挑战,特别是在经典分层设计和联合源信道编码中。
  2. 本文提出了一种流匹配生成解码器,采用“先着陆后传输”范式,将无线信道与概率流紧密结合,以实现低延迟解码。
  3. 在MNIST、Fashion-MNIST和DIV2K数据集上的实验结果显示,该方法在AWGN、Rayleigh和MIMO信道上均优于JPEG2000+LDPC和DeepJSCC等基线,且只需少量ODE步骤即可实现良好的感知质量。

📝 摘要(中文)

由于严格的速率和可靠性要求,无线图像传输在低延迟下仍然面临挑战。基于扩散的生成解码器通过利用学习到的图像先验提供强大的感知质量,但迭代随机去噪导致高解码延迟。为实现低延迟解码,本文提出了一种流匹配生成解码器,采用新的“先着陆后传输”范式,将物理无线信道紧密集成到连续时间概率流中。通过构建高斯平滑路径并推导出闭合形式的教师速度场,训练出一个确定性、信道感知的ODE解码器。实验结果表明,该方法在多个信道上均优于现有基线,同时保持良好的感知质量。

🔬 方法详解

问题定义:本文旨在解决无线图像传输中的低延迟和高可靠性问题。现有方法如经典分层设计和联合源信道编码在这些方面表现不佳,尤其是在高噪声环境下。

核心思路:提出的流匹配生成解码器通过“先着陆后传输”范式,将物理无线信道与连续时间概率流结合,利用高斯平滑路径和教师速度场实现低延迟解码。

技术框架:整体架构包括构建高斯平滑路径、推导教师速度场、训练条件流匹配的神经网络学生向量场,以及在推理阶段使用有效噪声方差估计设置ODE起始时间。

关键创新:最重要的创新在于将流匹配与无线信道特性结合,形成一个确定性且物理可解释的ODE解码器,显著降低了计算复杂度。

关键设计:关键设计包括高斯平滑路径的噪声调度、教师速度场的闭合形式推导,以及通过线性MMSE均衡和奇异值域处理将Rayleigh和MIMO信道映射为AWGN等效信道,避免了重新训练。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所提出的方法在MNIST、Fashion-MNIST和DIV2K数据集上相较于JPEG2000+LDPC和DeepJSCC等基线,均实现了显著的性能提升,且在AWGN、Rayleigh和MIMO信道上均表现出良好的感知质量,仅需少量ODE步骤即可完成解码。

🎯 应用场景

该研究的潜在应用领域包括无线通信、图像传输和实时视频流等场景,能够显著提升在高噪声环境下的图像传输质量和效率。未来,该方法有望在5G及更高代际的无线网络中得到广泛应用,推动图像传输技术的发展。

📄 摘要(原文)

Due to strict rate and reliability demands, wireless image transmission remains difficult for both classical layered designs and joint source-channel coding (JSCC), especially under low latency. Diffusion-based generative decoders can deliver strong perceptual quality by leveraging learned image priors, but iterative stochastic denoising leads to high decoding delay. To enable low-latency decoding, we propose a flow-matching (FM) generative decoder under a new land-then-transport (LTT) paradigm that tightly integrates the physical wireless channel into a continuous-time probability flow. For AWGN channels, we build a Gaussian smoothing path whose noise schedule indexes effective noise levels, and derive a closed-form teacher velocity field along this path. A neural-network student vector field is trained by conditional flow matching, yielding a deterministic, channel-aware ODE decoder with complexity linear in the number of ODE steps. At inference, it only needs an estimate of the effective noise variance to set the ODE starting time. We further show that Rayleigh fading and MIMO channels can be mapped, via linear MMSE equalization and singular-value-domain processing, to AWGN-equivalent channels with calibrated starting times. Therefore, the same probability path and trained velocity field can be reused for Rayleigh and MIMO without retraining. Experiments on MNIST, Fashion-MNIST, and DIV2K over AWGN, Rayleigh, and MIMO demonstrate consistent gains over JPEG2000+LDPC, DeepJSCC, and diffusion-based baselines, while achieving good perceptual quality with only a few ODE steps. Overall, LTT provides a deterministic, physically interpretable, and computation-efficient framework for generative wireless image decoding across diverse channels.