Self-Supervised Neural Architecture Search for Multimodal Deep Neural Networks

📄 arXiv: 2512.24793v1 📥 PDF

作者: Shota Suzuki, Satoshi Ono

分类: cs.LG, cs.NE

发布日期: 2025-12-31

期刊: IEICE Transactions on Information and Systems, Vol.E108.D, No. 6, pp. 640-643, 2025

DOI: 10.1587/transinf.2024EDL8018


💡 一句话要点

提出一种自监督多模态神经网络架构搜索方法,解决标注数据依赖问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自监督学习 神经架构搜索 多模态学习 深度神经网络 无监督学习

📋 核心要点

  1. 多模态DNN的架构设计复杂,传统NAS方法依赖大量标注数据,限制了其应用。
  2. 提出一种自监督学习方法,同时应用于架构搜索和模型预训练,降低对标注数据的需求。
  3. 实验结果表明,该方法能够仅使用无标注数据成功设计出有效的多模态DNN架构。

📝 摘要(中文)

本文提出了一种用于多模态深度神经网络(DNN)架构搜索的自监督学习(SSL)方法。由于多模态DNN需要融合来自多个模态的特征,其结构复杂性使得神经架构搜索(NAS)非常适用。然而,通过NAS构建多模态DNN架构需要大量的标注训练数据。因此,本文提出的方法将SSL全面应用于架构搜索和模型预训练过程。实验结果表明,该方法成功地从无标注训练数据中设计了DNN架构。

🔬 方法详解

问题定义:多模态深度神经网络的设计面临挑战,特别是如何有效地融合来自不同模态的信息。传统的神经架构搜索(NAS)方法虽然可以自动化网络设计,但通常需要大量的标注数据进行训练,这在许多实际应用中是难以满足的。因此,如何在缺乏标注数据的情况下,为多模态DNN找到合适的架构是一个亟待解决的问题。

核心思路:本文的核心思路是利用自监督学习(SSL)来克服对大量标注数据的依赖。通过设计合适的自监督任务,模型可以在无标注数据上学习到有用的特征表示,从而为后续的架构搜索提供良好的基础。同时,将SSL应用于架构搜索过程本身,引导搜索过程朝着更有利于自监督任务的方向发展。

技术框架:该方法包含两个主要阶段:首先,利用自监督学习对候选网络进行预训练,使其能够从无标注数据中提取有意义的特征。然后,在预训练的基础上,使用NAS算法搜索最优的网络架构。整个框架的关键在于如何设计有效的自监督任务,以及如何将自监督学习与架构搜索过程相结合。

关键创新:该方法最重要的创新点在于将自监督学习全面应用于多模态DNN的架构搜索过程。与传统的NAS方法相比,该方法不需要大量的标注数据,从而大大降低了数据收集和标注的成本。此外,通过将自监督学习与架构搜索相结合,可以更好地利用无标注数据中的信息,从而找到更适合特定任务的网络架构。

关键设计:具体的自监督任务设计可能包括对比学习、生成式学习等。架构搜索算法可以选择常用的强化学习、进化算法或基于梯度的优化方法。损失函数的设计需要同时考虑自监督任务的性能和架构的复杂度。网络结构的设计需要考虑不同模态之间的特征融合方式,例如注意力机制、跨模态Transformer等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够在无标注数据上成功设计出有效的多模态DNN架构。具体的性能数据和对比基线(例如,在相同数据集上使用有监督学习的NAS方法)以及提升幅度(例如,在特定任务上的准确率提升)需要在论文中进一步明确。

🎯 应用场景

该研究成果可广泛应用于多模态数据处理领域,如自动驾驶(图像、激光雷达)、医疗诊断(图像、文本)、语音识别(语音、文本)等。通过降低对标注数据的依赖,可以加速多模态DNN在资源受限场景下的部署,并促进相关技术的普及。

📄 摘要(原文)

Neural architecture search (NAS), which automates the architectural design process of deep neural networks (DNN), has attracted increasing attention. Multimodal DNNs that necessitate feature fusion from multiple modalities benefit from NAS due to their structural complexity; however, constructing an architecture for multimodal DNNs through NAS requires a substantial amount of labeled training data. Thus, this paper proposes a self-supervised learning (SSL) method for architecture search of multimodal DNNs. The proposed method applies SSL comprehensively for both the architecture search and model pretraining processes. Experimental results demonstrated that the proposed method successfully designed architectures for DNNs from unlabeled training data.