Vision without Images: End-to-End Computer Vision from Single Compressive Measurements

📄 arXiv: 2501.15122v3 📥 PDF

作者: Fengpu Pan, Heting Gao, Jiangtao Wen, Yuxing Han

分类: cs.CV, cs.AI

发布日期: 2025-01-25 (更新: 2025-09-02)


💡 一句话要点

提出基于压缩感知的CompDAE,直接从单次压缩测量中实现端到端计算机视觉,尤其适用于弱光环境。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 压缩感知 计算机视觉 端到端学习 弱光成像 深度估计

📋 核心要点

  1. 传统SCI方法在弱光和低信噪比下表现不佳,且高分辨率传感器对掩模尺寸有硬件限制。
  2. 提出CompDAE,一种直接从压缩测量中进行端到端视觉任务的框架,无需图像重建。
  3. 实验表明,CompDAE在多个数据集上实现了最先进的性能,尤其是在超低光照条件下。

📝 摘要(中文)

快照压缩成像(SCI)提供高速、低带宽和节能的图像采集,但仍面临弱光和低信噪比(SNR)的挑战。此外,高分辨率传感器中的实际硬件约束限制了大型帧尺寸掩模的使用,因此需要更小、硬件友好的设计。本文提出了一种基于SCI的计算机视觉新框架,使用仅8x8大小的伪随机二元掩模,以实现物理上可行的实现。其核心是CompDAE,一个基于STFormer架构的压缩去噪自编码器,旨在直接从嘈杂的压缩原始像素测量中执行下游任务,如边缘检测和深度估计,而无需图像重建。CompDAE结合了受BackSlash启发的速率约束训练策略,以促进紧凑、可压缩的模型。共享编码器与轻量级特定任务解码器相结合,实现了一个统一的多任务平台。跨多个数据集的广泛实验表明,CompDAE实现了最先进的性能,且复杂度显著降低,尤其是在传统CMOS和SCI流程失败的超低光条件下。

🔬 方法详解

问题定义:现有基于快照压缩成像(SCI)的计算机视觉方法,通常需要先进行图像重建,然后再进行下游任务,这增加了计算复杂度和时间开销。此外,在弱光和低信噪比(SNR)条件下,重建图像的质量会显著下降,影响下游任务的性能。同时,高分辨率传感器对掩模尺寸存在硬件约束,限制了传统SCI的应用。

核心思路:本文的核心思路是绕过图像重建步骤,直接从压缩测量数据中学习视觉特征,从而实现端到端的计算机视觉任务。通过设计一个压缩去噪自编码器(CompDAE),能够从噪声压缩数据中提取有用的信息,并用于边缘检测和深度估计等任务。这种方法可以降低计算复杂度,并提高在弱光条件下的性能。

技术框架:CompDAE框架主要包含一个共享编码器和多个特定任务的解码器。编码器负责从压缩测量数据中提取特征,解码器则根据提取的特征完成特定的视觉任务,如边缘检测或深度估计。整个框架采用端到端的方式进行训练,通过最小化任务损失和压缩损失来优化模型参数。

关键创新:该方法最重要的创新点在于直接从压缩测量数据中进行视觉任务,避免了图像重建步骤。此外,CompDAE采用了速率约束训练策略,鼓励模型学习紧凑、可压缩的特征表示,从而降低模型的复杂度。使用小尺寸的伪随机二元掩模,更易于硬件实现。

关键设计:CompDAE使用STFormer作为其核心架构,这是一种基于Transformer的结构,能够有效地捕捉图像中的长距离依赖关系。为了实现速率约束,CompDAE采用了BackSlash中提出的方法,通过在训练过程中引入一个压缩损失来限制特征的维度。此外,针对不同的视觉任务,CompDAE设计了轻量级的特定任务解码器,以降低模型的整体复杂度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CompDAE在多个数据集上实现了最先进的性能,尤其是在超低光照条件下,性能优于传统的CMOS和SCI流程。该方法使用8x8的小尺寸掩模,更易于硬件实现,并且具有更低的计算复杂度。实验结果表明,CompDAE能够有效地从噪声压缩数据中提取有用的信息,并用于边缘检测和深度估计等任务。

🎯 应用场景

该研究成果可应用于低功耗、低带宽的嵌入式视觉系统,例如无人机、机器人和监控摄像头。尤其是在弱光或高动态范围场景下,该方法能够提供更可靠的视觉信息,具有重要的实际应用价值。未来,该技术有望扩展到其他计算机视觉任务,并与其他感知模态相结合,实现更智能的感知系统。

📄 摘要(原文)

Snapshot Compressed Imaging (SCI) offers high-speed, low-bandwidth, and energy-efficient image acquisition, but remains challenged by low-light and low signal-to-noise ratio (SNR) conditions. Moreover, practical hardware constraints in high-resolution sensors limit the use of large frame-sized masks, necessitating smaller, hardware-friendly designs. In this work, we present a novel SCI-based computer vision framework using pseudo-random binary masks of only 8$\times$8 in size for physically feasible implementations. At its core is CompDAE, a Compressive Denoising Autoencoder built on the STFormer architecture, designed to perform downstream tasks--such as edge detection and depth estimation--directly from noisy compressive raw pixel measurements without image reconstruction. CompDAE incorporates a rate-constrained training strategy inspired by BackSlash to promote compact, compressible models. A shared encoder paired with lightweight task-specific decoders enables a unified multi-task platform. Extensive experiments across multiple datasets demonstrate that CompDAE achieves state-of-the-art performance with significantly lower complexity, especially under ultra-low-light conditions where traditional CMOS and SCI pipelines fail.