Hardware-Aware Feature Extraction Quantisation for Real-Time Visual Odometry on FPGA Platforms

📄 arXiv: 2507.07903v1 📥 PDF

作者: Mateusz Wasala, Mateusz Smolarczyk, Michal Danilowicz, Tomasz Kryjak

分类: cs.CV, eess.IV

发布日期: 2025-07-10

备注: Accepted for the DSD 2025 conference in Salerno, Italy


💡 一句话要点

提出硬件感知量化的SuperPoint,加速FPGA平台实时视觉里程计

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 视觉里程计 FPGA 模型量化 硬件感知优化 SuperPoint 嵌入式系统 实时性

📋 核心要点

  1. 现有视觉里程计方法在嵌入式平台上计算量大,难以实现实时性,尤其是在资源受限的移动设备上。
  2. 本文提出一种基于量化SuperPoint的特征提取架构,通过硬件感知优化,降低计算复杂度,提升运行速度。
  3. 实验表明,该方法在FPGA平台上能以54fps处理图像,并在TUM数据集上验证了量化对视觉里程计精度的影响。

📝 摘要(中文)

本文提出了一种嵌入式无监督架构,用于检测和描述图像中的特征点,并应用于视觉里程计。该架构基于量化的SuperPoint卷积神经网络,旨在最小化计算需求,同时保持高检测质量,从而便于在资源受限的移动或嵌入式系统上高效部署。该方案在AMD/Xilinx Zynq UltraScale+ FPGA片上系统平台上实现,评估了深度学习处理单元(DPU)的性能,并使用Brevitas库和FINN框架进行模型量化和硬件感知优化。实验结果表明,该方案能够在FPGA平台上以高达54 fps的速度处理640 x 480像素的图像,优于同领域的现有技术。在TUM数据集上进行的实验验证并讨论了不同量化技术对视觉里程计任务中模型精度和性能的影响。

🔬 方法详解

问题定义:现有的视觉里程计(Visual Odometry)方法,特别是基于深度学习的方法,在计算资源受限的嵌入式平台上难以实现实时性。这些方法通常需要大量的计算资源来进行特征提取和匹配,这对于移动机器人和无人机等应用来说是一个挑战。因此,如何在保持精度的前提下,降低计算复杂度,实现实时视觉里程计是本文要解决的问题。

核心思路:本文的核心思路是利用模型量化和硬件感知优化来降低SuperPoint卷积神经网络的计算复杂度,使其能够在FPGA平台上高效运行。通过量化网络权重和激活值,可以减少存储空间和计算量,从而提高推理速度。同时,结合硬件特性进行优化,可以进一步提升性能。

技术框架:整体框架包括以下几个主要阶段:1) 使用SuperPoint网络进行特征点检测和描述;2) 使用Brevitas库和FINN框架进行模型量化,包括训练后量化和量化感知训练;3) 在AMD/Xilinx Zynq UltraScale+ FPGA平台上部署量化后的模型,并利用深度学习处理单元(DPU)加速推理;4) 使用TUM数据集评估视觉里程计的精度和性能。

关键创新:本文的关键创新在于将硬件感知量化技术应用于SuperPoint网络,并成功地在FPGA平台上实现了实时视觉里程计。通过结合模型量化和硬件优化,显著降低了计算复杂度,同时保持了较高的精度。此外,本文还深入研究了不同量化技术对视觉里程计性能的影响。

关键设计:在模型量化方面,本文尝试了不同的量化策略,包括训练后量化和量化感知训练,并比较了它们对视觉里程计精度的影响。在硬件部署方面,本文利用了Xilinx的DPU来加速推理,并针对FPGA的架构特点进行了优化。具体的量化参数设置和网络结构细节在论文中有详细描述,但具体数值未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在FPGA平台上实现了54fps的图像处理速度,显著优于现有技术。通过模型量化和硬件感知优化,在保持较高精度的前提下,大幅降低了计算复杂度。在TUM数据集上的实验结果表明,该方法能够有效地进行视觉里程计,并验证了不同量化技术对性能的影响。具体精度提升数据未知。

🎯 应用场景

该研究成果可广泛应用于机器人导航、无人机自主飞行、增强现实等领域。通过在资源受限的嵌入式平台上实现实时视觉里程计,可以提高这些应用的自主性和智能化水平。例如,在无人机巡检中,可以利用该技术实现自主导航和定位,从而提高巡检效率和安全性。此外,该技术还可以应用于移动机器人,使其能够在复杂环境中进行自主导航和避障。

📄 摘要(原文)

Accurate position estimation is essential for modern navigation systems deployed in autonomous platforms, including ground vehicles, marine vessels, and aerial drones. In this context, Visual Simultaneous Localisation and Mapping (VSLAM) - which includes Visual Odometry - relies heavily on the reliable extraction of salient feature points from the visual input data. In this work, we propose an embedded implementation of an unsupervised architecture capable of detecting and describing feature points. It is based on a quantised SuperPoint convolutional neural network. Our objective is to minimise the computational demands of the model while preserving high detection quality, thus facilitating efficient deployment on platforms with limited resources, such as mobile or embedded systems. We implemented the solution on an FPGA System-on-Chip (SoC) platform, specifically the AMD/Xilinx Zynq UltraScale+, where we evaluated the performance of Deep Learning Processing Units (DPUs) and we also used the Brevitas library and the FINN framework to perform model quantisation and hardware-aware optimisation. This allowed us to process 640 x 480 pixel images at up to 54 fps on an FPGA platform, outperforming state-of-the-art solutions in the field. We conducted experiments on the TUM dataset to demonstrate and discuss the impact of different quantisation techniques on the accuracy and performance of the model in a visual odometry task.