Distill-then-prune: An Efficient Compression Framework for Real-time Stereo Matching Network on Edge Devices

📄 arXiv: 2405.11809v1 📥 PDF

作者: Baiyu Pan, Jichao Jiao, Jianxing Pang, Jun Cheng

分类: cs.CV, cs.AI

发布日期: 2024-05-20

备注: International Conference on Robotics and Automation (ICRA) 2024


💡 一句话要点

提出蒸馏与剪枝结合的方法以提升边缘设备立体匹配精度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 实时立体匹配 知识蒸馏 模型剪枝 边缘计算 深度学习

📋 核心要点

  1. 现有的实时立体匹配方法在准确性上存在不足,改进效果有限。
  2. 本文提出结合知识蒸馏与模型剪枝的策略,以提高边缘设备上的实时性能与准确性。
  3. 在Sceneflow和KITTI基准上进行的实验表明,所提方法在准确性上取得了显著提升。

📝 摘要(中文)

近年来,许多实时立体匹配方法被提出,但往往缺乏准确性。这些方法通过引入新模块或整合传统方法来提高准确性,但改进效果有限。本文提出了一种新策略,通过结合知识蒸馏和模型剪枝,克服速度与准确性之间的固有权衡。最终,我们获得了一种在边缘设备上保持实时性能的高精度模型。我们的方法包括三个关键步骤:首先,回顾现有方法并设计轻量级模型;其次,利用高效模型作为教师对轻量级模型进行知识蒸馏;最后,系统性地剪枝轻量级模型以获得最终模型。通过在Sceneflow和KITTI两个广泛使用的基准上进行的广泛实验,我们分析了每个模块的有效性,并展示了我们的最新结果。

🔬 方法详解

问题定义:本文旨在解决现有实时立体匹配方法在准确性与速度之间的权衡问题。现有方法往往通过增加复杂模块来提升准确性,但导致实时性能下降。

核心思路:本文提出的核心思路是结合知识蒸馏与模型剪枝,通过高效模型指导轻量级模型的学习,从而在保持实时性的同时提升准确性。

技术框架:整体架构分为三个主要阶段:首先,设计轻量级模型并去除冗余模块;其次,利用高效模型进行知识蒸馏;最后,对轻量级模型进行系统性剪枝以获得最终模型。

关键创新:本文的关键创新在于将知识蒸馏与模型剪枝有效结合,形成了一种新的压缩框架,显著提升了边缘设备上的立体匹配性能。

关键设计:在模型设计中,采用了特定的损失函数以优化蒸馏过程,并通过对比分析确定了冗余模块的去除策略,确保轻量级模型的有效性。实验中还进行了消融研究,以验证各模块的贡献。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,所提方法在Sceneflow和KITTI数据集上均取得了优于现有最先进方法的性能,具体提升幅度达到X%(具体数据待补充),证明了知识蒸馏与剪枝结合的有效性。

🎯 应用场景

该研究的潜在应用领域包括自动驾驶、机器人视觉和增强现实等场景,能够在边缘设备上实现高效的立体匹配,提升实时处理能力。未来,该方法有望推动更多实时视觉任务的研究与应用,尤其是在资源受限的环境中。

📄 摘要(原文)

In recent years, numerous real-time stereo matching methods have been introduced, but they often lack accuracy. These methods attempt to improve accuracy by introducing new modules or integrating traditional methods. However, the improvements are only modest. In this paper, we propose a novel strategy by incorporating knowledge distillation and model pruning to overcome the inherent trade-off between speed and accuracy. As a result, we obtained a model that maintains real-time performance while delivering high accuracy on edge devices. Our proposed method involves three key steps. Firstly, we review state-of-the-art methods and design our lightweight model by removing redundant modules from those efficient models through a comparison of their contributions. Next, we leverage the efficient model as the teacher to distill knowledge into the lightweight model. Finally, we systematically prune the lightweight model to obtain the final model. Through extensive experiments conducted on two widely-used benchmarks, Sceneflow and KITTI, we perform ablation studies to analyze the effectiveness of each module and present our state-of-the-art results.