Vision without Images: End-to-End Computer Vision from Single Compressive Measurements

作者: Fengpu Pan, Heting Gao, Jiangtao Wen, Yuxing Han

分类: cs.CV, cs.AI

发布日期: 2025-01-25 (更新: 2025-09-02)

💡 一句话要点

提出基于压缩感知的CompDAE，直接从单次压缩测量中实现端到端计算机视觉，尤其适用于弱光环境。

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 压缩感知 计算机视觉 端到端学习 弱光成像 深度估计

📋 核心要点

传统SCI方法在弱光和低信噪比下表现不佳，且高分辨率传感器对掩模尺寸有硬件限制。
提出CompDAE，一种直接从压缩测量中进行端到端视觉任务的框架，无需图像重建。
实验表明，CompDAE在多个数据集上实现了最先进的性能，尤其是在超低光照条件下。

📝 摘要（中文）

快照压缩成像(SCI)提供高速、低带宽和节能的图像采集，但仍面临弱光和低信噪比(SNR)的挑战。此外，高分辨率传感器中的实际硬件约束限制了大型帧尺寸掩模的使用，因此需要更小、硬件友好的设计。本文提出了一种基于SCI的计算机视觉新框架，使用仅8x8大小的伪随机二元掩模，以实现物理上可行的实现。其核心是CompDAE，一个基于STFormer架构的压缩去噪自编码器，旨在直接从嘈杂的压缩原始像素测量中执行下游任务，如边缘检测和深度估计，而无需图像重建。CompDAE结合了受BackSlash启发的速率约束训练策略，以促进紧凑、可压缩的模型。共享编码器与轻量级特定任务解码器相结合，实现了一个统一的多任务平台。跨多个数据集的广泛实验表明，CompDAE实现了最先进的性能，且复杂度显著降低，尤其是在传统CMOS和SCI流程失败的超低光条件下。

🔬 方法详解

问题定义：现有基于快照压缩成像(SCI)的计算机视觉方法，通常需要先进行图像重建，然后再进行下游任务，这增加了计算复杂度和时间开销。此外，在弱光和低信噪比(SNR)条件下，重建图像的质量会显著下降，影响下游任务的性能。同时，高分辨率传感器对掩模尺寸存在硬件约束，限制了传统SCI的应用。

核心思路：本文的核心思路是绕过图像重建步骤，直接从压缩测量数据中学习视觉特征，从而实现端到端的计算机视觉任务。通过设计一个压缩去噪自编码器(CompDAE)，能够从噪声压缩数据中提取有用的信息，并用于边缘检测和深度估计等任务。这种方法可以降低计算复杂度，并提高在弱光条件下的性能。

技术框架：CompDAE框架主要包含一个共享编码器和多个特定任务的解码器。编码器负责从压缩测量数据中提取特征，解码器则根据提取的特征完成特定的视觉任务，如边缘检测或深度估计。整个框架采用端到端的方式进行训练，通过最小化任务损失和压缩损失来优化模型参数。

关键创新：该方法最重要的创新点在于直接从压缩测量数据中进行视觉任务，避免了图像重建步骤。此外，CompDAE采用了速率约束训练策略，鼓励模型学习紧凑、可压缩的特征表示，从而降低模型的复杂度。使用小尺寸的伪随机二元掩模，更易于硬件实现。

关键设计：CompDAE使用STFormer作为其核心架构，这是一种基于Transformer的结构，能够有效地捕捉图像中的长距离依赖关系。为了实现速率约束，CompDAE采用了BackSlash中提出的方法，通过在训练过程中引入一个压缩损失来限制特征的维度。此外，针对不同的视觉任务，CompDAE设计了轻量级的特定任务解码器，以降低模型的整体复杂度。

🖼️ 关键图片

📊 实验亮点

CompDAE在多个数据集上实现了最先进的性能，尤其是在超低光照条件下，性能优于传统的CMOS和SCI流程。该方法使用8x8的小尺寸掩模，更易于硬件实现，并且具有更低的计算复杂度。实验结果表明，CompDAE能够有效地从噪声压缩数据中提取有用的信息，并用于边缘检测和深度估计等任务。

🎯 应用场景

该研究成果可应用于低功耗、低带宽的嵌入式视觉系统，例如无人机、机器人和监控摄像头。尤其是在弱光或高动态范围场景下，该方法能够提供更可靠的视觉信息，具有重要的实际应用价值。未来，该技术有望扩展到其他计算机视觉任务，并与其他感知模态相结合，实现更智能的感知系统。

📄 摘要（原文）

Snapshot Compressed Imaging (SCI) offers high-speed, low-bandwidth, and energy-efficient image acquisition, but remains challenged by low-light and low signal-to-noise ratio (SNR) conditions. Moreover, practical hardware constraints in high-resolution sensors limit the use of large frame-sized masks, necessitating smaller, hardware-friendly designs. In this work, we present a novel SCI-based computer vision framework using pseudo-random binary masks of only 8$\times$8 in size for physically feasible implementations. At its core is CompDAE, a Compressive Denoising Autoencoder built on the STFormer architecture, designed to perform downstream tasks--such as edge detection and depth estimation--directly from noisy compressive raw pixel measurements without image reconstruction. CompDAE incorporates a rate-constrained training strategy inspired by BackSlash to promote compact, compressible models. A shared encoder paired with lightweight task-specific decoders enables a unified multi-task platform. Extensive experiments across multiple datasets demonstrate that CompDAE achieves state-of-the-art performance with significantly lower complexity, especially under ultra-low-light conditions where traditional CMOS and SCI pipelines fail.

Vision without Images: End-to-End Computer Vision from Single Compressive Measurements

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理