bit2bit: 1-bit quanta video reconstruction via self-supervised photon prediction

📄 arXiv: 2410.23247v3 📥 PDF

作者: Yehe Liu, Alexander Krull, Hector Basevi, Ales Leonardis, Michael W. Jenkins

分类: eess.IV, cs.CV, cs.LG

发布日期: 2024-10-30 (更新: 2024-11-07)

备注: NeurIPS 2024


💡 一句话要点

提出bit2bit以解决稀疏二进制量子图像重建问题

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 量子图像传感器 自监督学习 图像重建 伯努利过程 时空分辨率 光子预测 高速度视频

📋 核心要点

  1. 现有的量子图像重建方法依赖重度时空分箱,导致时空分辨率的显著降低,无法充分利用稀疏数据。
  2. 本文提出的bit2bit方法通过预测光子到达位置的概率分布,利用伯努利格子过程模型重建高质量图像序列。
  3. 在模拟数据和真实SPAD高速度视频的实验中,我们的方法在重建质量和处理速度上均超越了现有的最先进方法。

📝 摘要(中文)

量子图像传感器(如SPAD阵列)是一种新兴的传感器技术,能够在短至几纳秒的曝光时间内生成1位数组,表示光子检测事件。现有方法通过重度时空分箱对原始数据进行后处理,虽然提高了图像的可用性,但却降低了时空分辨率。本文提出了bit2bit,一种从稀疏二进制量子图像数据中重建高质量图像序列的新方法。我们基于预测光子到达位置的概率分布,采用截断泊松的伯努利格子过程模型,提出了一种基于掩蔽损失函数的自监督解决方案。通过模拟和真实数据的评估,我们的方法在极低光子输入下实现了34.35的平均PSNR,显著提升了数据的可视化和可用性。

🔬 方法详解

问题定义:本文旨在解决从稀疏二进制量子图像数据中重建高质量图像序列的问题。现有方法通过重度时空分箱降低了时空分辨率,无法有效利用原始数据。

核心思路:我们的方法bit2bit通过预测光子到达位置的概率分布,采用伯努利格子过程模型来替代不适用的泊松分布,从而实现高质量图像重建。

技术框架:整体框架包括数据输入、光子到达位置的概率分布预测、图像序列重建和自监督学习模块。每个模块协同工作,确保重建的图像质量和时空分辨率。

关键创新:本研究的关键创新在于引入了基于掩蔽损失函数的自监督学习方法,利用伯努利格子过程模型来处理稀疏二进制数据,显著提升了重建效果。

关键设计:我们设计了特定的损失函数以适应二进制数据的特性,并在网络结构中引入了自监督机制,以提高模型的泛化能力和重建精度。实验中使用的参数设置经过优化,以确保在极低光子输入下仍能实现高质量重建。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在实验中,bit2bit方法在模拟数据上实现了34.35的平均PSNR,且在极低光子输入(每帧每像素<0.06光子)下仍能保持高质量重建。与现有的量子爆发摄影(QBP)等方法相比,我们的方法在重建质量和处理速度上均有显著提升。

🎯 应用场景

该研究的潜在应用领域包括高速度视频监控、医学成像、科学实验等需要高时空分辨率的场景。通过提升量子图像数据的可视化和可用性,bit2bit方法能够促进现有分析技术的应用,推动相关领域的发展。

📄 摘要(原文)

Quanta image sensors, such as SPAD arrays, are an emerging sensor technology, producing 1-bit arrays representing photon detection events over exposures as short as a few nanoseconds. In practice, raw data are post-processed using heavy spatiotemporal binning to create more useful and interpretable images at the cost of degrading spatiotemporal resolution. In this work, we propose bit2bit, a new method for reconstructing high-quality image stacks at the original spatiotemporal resolution from sparse binary quanta image data. Inspired by recent work on Poisson denoising, we developed an algorithm that creates a dense image sequence from sparse binary photon data by predicting the photon arrival location probability distribution. However, due to the binary nature of the data, we show that the assumption of a Poisson distribution is inadequate. Instead, we model the process with a Bernoulli lattice process from the truncated Poisson. This leads to the proposal of a novel self-supervised solution based on a masked loss function. We evaluate our method using both simulated and real data. On simulated data from a conventional video, we achieve 34.35 mean PSNR with extremely photon-sparse binary input (<0.06 photons per pixel per frame). We also present a novel dataset containing a wide range of real SPAD high-speed videos under various challenging imaging conditions. The scenes cover strong/weak ambient light, strong motion, ultra-fast events, etc., which will be made available to the community, on which we demonstrate the promise of our approach. Both reconstruction quality and throughput substantially surpass the state-of-the-art methods (e.g., Quanta Burst Photography (QBP)). Our approach significantly enhances the visualization and usability of the data, enabling the application of existing analysis techniques.