Towards 1000-fold Electron Microscopy Image Compression for Connectomics via VQ-VAE with Transformer Prior

📄 arXiv: 2511.00231v2 📥 PDF

作者: Fuming Yang, Yicong Li, Hanspeter Pfister, Jeff W. Lichtman, Yaron Meirovitch

分类: cs.CV

发布日期: 2025-10-31 (更新: 2025-11-05)


💡 一句话要点

提出基于VQ-VAE与Transformer先验的电镜图像压缩方法,实现高达1000倍的压缩比。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)

关键词: 电镜图像压缩 VQ-VAE Transformer 神经连接组学 图像重建

📋 核心要点

  1. 电镜数据集规模庞大,对存储、传输和分析提出了严峻挑战,现有方法难以满足需求。
  2. 论文提出VQ-VAE压缩框架,结合Transformer先验,在保证压缩比的同时,尽可能恢复图像纹理。
  3. 该方法实现了16倍到1024倍的压缩,并支持ROI驱动的高分辨率重建,有效降低了存储和计算成本。

📝 摘要(中文)

本研究提出了一种基于向量量化变分自编码器(VQ-VAE)的电镜图像压缩框架,压缩比范围为16倍至1024倍,并支持按需解码:仅解码顶部token以实现极高压缩比,可选的Transformer先验可以预测底部token(不改变压缩比),通过特征线性调制(FiLM)和连接来恢复纹理;此外,我们还引入了一种ROI驱动的工作流程,仅在需要时从1024倍压缩的潜在空间中执行选择性的高分辨率重建。

🔬 方法详解

问题定义:电镜(EM)图像数据量巨大,达到Petascale级别,对存储、传输和后续分析造成了极大的负担。现有压缩方法在压缩比和图像质量之间难以取得平衡,尤其是在高压缩比下,图像细节损失严重,影响了神经连接等关键信息的提取。

核心思路:论文的核心思路是利用VQ-VAE进行高效的图像压缩,并通过引入Transformer先验来提升重建图像的质量。VQ-VAE能够将图像编码为离散的潜在表示,实现高压缩比。Transformer先验则用于预测VQ-VAE的底部token,从而恢复图像的纹理细节。这种设计旨在在极高压缩比下尽可能保留图像的关键信息。

技术框架:整体框架包含三个主要部分:VQ-VAE编码器、VQ-VAE解码器和Transformer先验。首先,VQ-VAE编码器将原始电镜图像压缩为离散的潜在表示。然后,Transformer先验利用已解码的顶部token预测底部token。最后,VQ-VAE解码器利用顶部token和预测的底部token重建图像。此外,还引入了ROI驱动的工作流程,允许用户选择性地对感兴趣区域进行高分辨率重建。

关键创新:该方法最重要的创新点在于将VQ-VAE与Transformer先验相结合,用于电镜图像的压缩。VQ-VAE负责实现高压缩比,而Transformer先验则负责恢复图像的纹理细节。与传统的压缩方法相比,该方法能够在极高压缩比下更好地保留图像的关键信息。此外,ROI驱动的工作流程也提高了方法的实用性。

关键设计:VQ-VAE的编码器和解码器采用卷积神经网络结构。Transformer先验采用标准的Transformer架构,用于预测VQ-VAE的底部token。特征线性调制(FiLM)被用于将Transformer的输出融入到VQ-VAE的解码器中。损失函数包括VQ-VAE的重建损失和Transformer的交叉熵损失。ROI驱动的工作流程允许用户指定感兴趣区域,并对这些区域进行高分辨率重建。

📊 实验亮点

实验结果表明,该方法能够实现高达1024倍的压缩比,同时保持较好的图像质量。与传统的JPEG压缩方法相比,该方法在相同压缩比下能够更好地保留图像的纹理细节。ROI驱动的工作流程能够有效地对感兴趣区域进行高分辨率重建,提高了方法的实用性。

🎯 应用场景

该研究成果可广泛应用于神经科学、生物医学等领域,尤其是在神经连接组学研究中,能够有效降低电镜图像数据的存储和传输成本,加速神经环路的解析。此外,该方法也可应用于其他类型的大规模图像数据的压缩和存储,具有重要的实际应用价值。

📄 摘要(原文)

Petascale electron microscopy (EM) datasets push storage, transfer, and downstream analysis toward their current limits. We present a vector-quantized variational autoencoder-based (VQ-VAE) compression framework for EM that spans 16x to 1024x and enables pay-as-you-decode usage: top-only decoding for extreme compression, with an optional Transformer prior that predicts bottom tokens (without changing the compression ratio) to restore texture via feature-wise linear modulation (FiLM) and concatenation; we further introduce an ROI-driven workflow that performs selective high-resolution reconstruction from 1024x-compressed latents only where needed.