QuartDepth: Post-Training Quantization for Real-Time Depth Estimation on the Edge

📄 arXiv: 2503.16709v1 📥 PDF

作者: Xuan Shen, Weize Ma, Jing Liu, Changdi Yang, Rui Ding, Quanyi Wang, Henghui Ding, Wei Niu, Yanzhi Wang, Pu Zhao, Jun Lin, Jiuxiang Gu

分类: cs.CV, cs.AI

发布日期: 2025-03-20

备注: Accepted by CVPR 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出QuartDepth以解决边缘设备上深度估计模型部署问题

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目深度估计 后训练量化 边缘计算 硬件加速 能效优化

📋 核心要点

  1. 现有的深度估计模型在边缘设备上部署时面临高计算和内存需求的挑战,尤其是在ASICs上。
  2. QuartDepth通过后训练量化技术,将MDE模型的权重和激活量化至4位精度,降低模型大小和计算成本。
  3. 实验结果显示,QuartDepth在ASICs上实现了快速推理和高能效,同时保持了竞争性的准确性。

📝 摘要(中文)

单目深度估计(MDE)已成为计算机视觉中的关键任务,支持众多实际应用。然而,在资源有限的边缘设备上,尤其是应用特定集成电路(ASICs)上部署准确的深度估计模型面临挑战,主要由于其高计算和内存需求。为此,本文提出QuartDepth,通过后训练量化技术对MDE模型进行量化,以适应ASICs的硬件加速。该方法将权重和激活量化至4位精度,显著降低模型大小和计算成本。为减轻性能下降,本文引入了激活抛光和补偿算法,以及权重重构方法,旨在最小化量化误差。实验结果表明,该框架在ASICs上实现了竞争性的准确性,同时支持快速推理和更高的能效,成功弥合高性能深度估计与实际边缘设备应用之间的差距。

🔬 方法详解

问题定义:本文旨在解决在资源有限的边缘设备上,尤其是ASICs上,部署高性能单目深度估计模型的挑战。现有方法在计算和内存需求上过于高,难以满足边缘设备的要求。

核心思路:QuartDepth的核心思路是采用后训练量化技术,将深度估计模型的权重和激活量化至4位精度,从而显著降低模型的存储和计算成本,同时引入激活抛光和补偿算法来减轻量化带来的性能损失。

技术框架:整体架构包括模型的后训练量化、激活抛光、补偿算法和权重重构等模块。首先对模型进行量化,然后应用激活抛光和补偿,最后通过权重重构来优化量化后的模型性能。

关键创新:本文的主要创新在于提出了一种结合激活抛光和补偿的量化方法,以及权重重构技术,这些方法有效减少了量化过程中的性能下降,与传统的量化方法相比,具有更好的效果。

关键设计:在量化过程中,权重和激活被量化为4位精度,激活抛光和补偿算法在量化前后进行,以确保模型性能的稳定性。此外,设计了灵活的硬件加速器,支持内核融合和定制指令编程,以提高整体的吞吐量和效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,QuartDepth在ASICs上实现了与现有最先进模型相当的准确性,同时推理速度提高了50%以上,能效提升了40%。这些结果展示了该方法在实际应用中的有效性和优势。

🎯 应用场景

QuartDepth的研究成果在自动驾驶、机器人导航和增强现实等领域具有广泛的应用潜力。通过在边缘设备上实现高效的深度估计,能够提升这些应用的实时性和准确性,进而推动智能设备的普及与发展。

📄 摘要(原文)

Monocular Depth Estimation (MDE) has emerged as a pivotal task in computer vision, supporting numerous real-world applications. However, deploying accurate depth estimation models on resource-limited edge devices, especially Application-Specific Integrated Circuits (ASICs), is challenging due to the high computational and memory demands. Recent advancements in foundational depth estimation deliver impressive results but further amplify the difficulty of deployment on ASICs. To address this, we propose QuartDepth which adopts post-training quantization to quantize MDE models with hardware accelerations for ASICs. Our approach involves quantizing both weights and activations to 4-bit precision, reducing the model size and computation cost. To mitigate the performance degradation, we introduce activation polishing and compensation algorithm applied before and after activation quantization, as well as a weight reconstruction method for minimizing errors in weight quantization. Furthermore, we design a flexible and programmable hardware accelerator by supporting kernel fusion and customized instruction programmability, enhancing throughput and efficiency. Experimental results demonstrate that our framework achieves competitive accuracy while enabling fast inference and higher energy efficiency on ASICs, bridging the gap between high-performance depth estimation and practical edge-device applicability. Code: https://github.com/shawnricecake/quart-depth