SalNAS: Efficient Saliency-prediction Neural Architecture Search with self-knowledge distillation

📄 arXiv: 2407.20062v1 📥 PDF

作者: Chakkrit Termritthikun, Ayaz Umer, Suwichaya Suwanwimolkul, Feng Xia, Ivan Lee

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-07-29

备注: Published in Engineering Applications of Artificial Intelligence

期刊: (2024) Engineering Applications of Artificial Intelligence, 136, 109030

DOI: 10.1016/j.engappai.2024.109030

🔗 代码/项目: GITHUB


💡 一句话要点

提出SalNAS以解决显著性预测模型设计效率低下问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 显著性预测 神经架构搜索 自知识蒸馏 动态卷积 深度学习 计算机视觉 轻量级模型

📋 核心要点

  1. 现有显著性预测模型的设计过程依赖于手动配置,耗时且容易出错,缺乏自动化和高效性。
  2. SalNAS通过构建一个共享权重的超网络,并引入动态卷积,提供了一种高效的显著性预测神经架构搜索方法。
  3. 利用自知识蒸馏方法,SalNAS在多个基准数据集上超越了现有的先进模型,展现出良好的泛化能力。

📝 摘要(中文)

近年来,深度卷积神经网络在显著性预测方面取得了显著进展。然而,手动配置神经网络架构需要专业知识,且耗时且易出错。为此,本文提出了一种新的显著性预测神经架构搜索框架SalNAS,具有两个主要贡献。首先,构建了一个包含所有候选架构的共享权重网络超网络,并在其中集成了动态卷积。其次,针对SalNAS的泛化能力不足问题,提出了一种自知识蒸馏方法Self-KD,通过在教师模型与真实标签之间加权平均信息来训练学生模型。实验表明,SalNAS在七个基准数据集上的表现优于其他先进的显著性预测模型,同时保持轻量级特性。

🔬 方法详解

问题定义:本文旨在解决显著性预测模型设计中的低效和高错误率问题,现有方法往往依赖于手动配置,缺乏自动化和高效性。

核心思路:SalNAS通过构建一个包含所有候选架构的共享权重超网络,并结合动态卷积,来实现高效的神经架构搜索。同时,引入自知识蒸馏方法Self-KD,以提升模型的泛化能力。

技术框架:SalNAS的整体架构包括一个超网络,该网络通过共享权重整合多个候选架构,并在编码器-解码器结构中集成动态卷积。Self-KD方法则在训练过程中利用教师模型的信息来指导学生模型的学习。

关键创新:SalNAS的主要创新在于其高效的超网络设计和自知识蒸馏方法的结合,使得模型在保持轻量级的同时,显著提升了性能和泛化能力。

关键设计:SalNAS的网络结构包含20.98百万个参数,采用动态卷积以增强特征提取能力。自知识蒸馏方法通过加权平均真实标签与教师模型预测的输出,避免了计算教师模型的梯度,从而提高了训练效率。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SalNAS在七个基准数据集上的实验结果显示,其性能超过了大多数现有的显著性预测模型,尤其是在多个评估指标上表现优异,展现出良好的泛化能力和高效性。

🎯 应用场景

SalNAS在显著性预测领域具有广泛的应用潜力,能够用于图像处理、视频分析和计算机视觉等多个领域。其高效性和轻量级特性使其适合在资源受限的环境中部署,推动了智能设备和实时系统的应用发展。

📄 摘要(原文)

Recent advancements in deep convolutional neural networks have significantly improved the performance of saliency prediction. However, the manual configuration of the neural network architectures requires domain knowledge expertise and can still be time-consuming and error-prone. To solve this, we propose a new Neural Architecture Search (NAS) framework for saliency prediction with two contributions. Firstly, a supernet for saliency prediction is built with a weight-sharing network containing all candidate architectures, by integrating a dynamic convolution into the encoder-decoder in the supernet, termed SalNAS. Secondly, despite the fact that SalNAS is highly efficient (20.98 million parameters), it can suffer from the lack of generalization. To solve this, we propose a self-knowledge distillation approach, termed Self-KD, that trains the student SalNAS with the weighted average information between the ground truth and the prediction from the teacher model. The teacher model, while sharing the same architecture, contains the best-performing weights chosen by cross-validation. Self-KD can generalize well without the need to compute the gradient in the teacher model, enabling an efficient training system. By utilizing Self-KD, SalNAS outperforms other state-of-the-art saliency prediction models in most evaluation rubrics across seven benchmark datasets while being a lightweight model. The code will be available at https://github.com/chakkritte/SalNAS