EdgeCrafter: Compact ViTs for Edge Dense Prediction via Task-Specialized Distillation

📄 arXiv: 2603.18739v1 📥 PDF

作者: Longfei Liu, Yongjie Hou, Yang Li, Qirui Wang, Youyang Sha, Yongjun Yu, Yinzhi Wang, Peizhe Ru, Xuanlong Yu, Xi Shen

分类: cs.CV

发布日期: 2026-03-19

备注: Code is available at: https://intellindust-ai-lab.github.io/projects/EdgeCrafter/

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

EdgeCrafter:面向边缘密集预测任务的紧凑型ViT,通过任务专用蒸馏实现

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 边缘计算 密集预测 Vision Transformer 知识蒸馏 目标检测 实例分割 姿态估计 轻量化模型

📋 核心要点

  1. 现有边缘设备上的密集预测模型受限于计算和内存资源,轻量级CNN架构占据主导地位,紧凑型ViT难以达到相同的精度-效率平衡。
  2. EdgeCrafter通过任务专用蒸馏和边缘友好的编码器-解码器设计,提升紧凑型ViT在边缘密集预测任务中的性能。
  3. 实验结果表明,EdgeCrafter在目标检测、实例分割和姿态估计等任务上,性能优于或可媲美现有方法,同时参数量更少。

📝 摘要(中文)

由于计算和内存的严格限制,在资源受限的边缘设备上部署高性能密集预测模型仍然具有挑战性。实际上,目标检测、实例分割和姿态估计的轻量级系统仍然主要由基于CNN的架构(如YOLO)主导,而紧凑型Vision Transformers (ViT) 即使经过大规模预训练,也难以实现同样强大的精度-效率权衡。我们认为,这种差距主要是由于小规模ViT中缺乏足够的任务特定表示学习,而不是ViT与边缘密集预测之间存在固有的不匹配。为了解决这个问题,我们引入了EdgeCrafter,一个统一的紧凑型ViT框架,用于边缘密集预测,其核心是ECDet,一个由蒸馏的紧凑型骨干网络和边缘友好的编码器-解码器设计构建的检测模型。在COCO数据集上,ECDet-S使用少于10M的参数,仅使用COCO注释即可达到51.7 AP。对于实例分割,ECInsSeg实现了与RF-DETR相当的性能,同时使用的参数大大减少。对于姿态估计,ECPose-X达到74.8 AP,显著优于YOLO26Pose-X (71.6 AP),尽管后者依赖于广泛的Objects365预训练。这些结果表明,紧凑型ViT,当与任务专用蒸馏和边缘感知设计相结合时,可以成为边缘密集预测的一种实用且有竞争力的选择。

🔬 方法详解

问题定义:论文旨在解决在资源受限的边缘设备上部署高性能密集预测模型的问题。现有方法,特别是基于CNN的架构,虽然轻量级,但在精度上存在瓶颈。紧凑型ViT虽然具有潜力,但由于缺乏任务特定的表示学习,难以达到与CNN相当的精度-效率权衡。

核心思路:论文的核心思路是通过任务专用蒸馏来提升紧凑型ViT在边缘密集预测任务中的性能。作者认为,小规模ViT的性能瓶颈在于缺乏针对特定任务的有效表示学习,因此通过蒸馏的方式,将大型模型的知识迁移到小型ViT模型中,使其能够更好地适应边缘设备的资源限制。

技术框架:EdgeCrafter是一个统一的紧凑型ViT框架,包含ECDet(目标检测)、ECInsSeg(实例分割)和ECPose-X(姿态估计)三个模型。这些模型都基于蒸馏的紧凑型骨干网络和边缘友好的编码器-解码器设计。整体流程包括:首先,使用大型模型(教师模型)在目标任务上进行训练;然后,使用教师模型的输出作为监督信号,训练紧凑型ViT模型(学生模型)。

关键创新:论文的关键创新在于提出了任务专用蒸馏策略,以及边缘友好的编码器-解码器设计。任务专用蒸馏能够使紧凑型ViT更好地学习到特定任务的表示,从而提升性能。边缘友好的编码器-解码器设计则能够减少计算量和内存占用,使其更适合在边缘设备上部署。与现有方法的本质区别在于,EdgeCrafter更加注重任务特定表示学习,而不是仅仅依赖于大规模预训练。

关键设计:在ECDet中,作者设计了一个边缘友好的编码器-解码器结构,以减少计算量。在蒸馏过程中,使用了多种损失函数,包括分类损失、回归损失和分割损失,以确保学生模型能够学习到教师模型的各个方面的知识。具体的参数设置和网络结构细节在论文中有详细描述,例如,ECDet-S使用了少于10M的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EdgeCrafter在COCO数据集上取得了显著的成果。ECDet-S使用少于10M的参数,仅使用COCO注释即可达到51.7 AP。ECInsSeg实现了与RF-DETR相当的实例分割性能,同时使用的参数大大减少。ECPose-X在姿态估计任务上达到74.8 AP,显著优于YOLO26Pose-X (71.6 AP),后者依赖于Objects365预训练。

🎯 应用场景

EdgeCrafter框架具有广泛的应用前景,例如智能安防、自动驾驶、机器人等领域。它可以用于在边缘设备上进行实时目标检测、实例分割和姿态估计,从而实现更快速、更高效的智能决策。该研究的实际价值在于降低了边缘AI部署的门槛,未来有望推动更多AI应用在边缘侧落地。

📄 摘要(原文)

Deploying high-performance dense prediction models on resource-constrained edge devices remains challenging due to strict limits on computation and memory. In practice, lightweight systems for object detection, instance segmentation, and pose estimation are still dominated by CNN-based architectures such as YOLO, while compact Vision Transformers (ViTs) often struggle to achieve similarly strong accuracy efficiency tradeoff, even with large scale pretraining. We argue that this gap is largely due to insufficient task specific representation learning in small scale ViTs, rather than an inherent mismatch between ViTs and edge dense prediction. To address this issue, we introduce EdgeCrafter, a unified compact ViT framework for edge dense prediction centered on ECDet, a detection model built from a distilled compact backbone and an edge-friendly encoder decoder design. On the COCO dataset, ECDet-S achieves 51.7 AP with fewer than 10M parameters using only COCO annotations. For instance segmentation, ECInsSeg achieves performance comparable to RF-DETR while using substantially fewer parameters. For pose estimation, ECPose-X reaches 74.8 AP, significantly outperforming YOLO26Pose-X (71.6 AP) despite the latter's reliance on extensive Objects365 pretraining. These results show that compact ViTs, when paired with task-specialized distillation and edge-aware design, can be a practical and competitive option for edge dense prediction. Code is available at: https://intellindust-ai-lab.github.io/projects/EdgeCrafter/