BioAutoML-NAS: An End-to-End AutoML Framework for Multimodal Insect Classification via Neural Architecture Search on Large-Scale Biodiversity Data
作者: Arefin Ittesafun Abian, Debopom Sutradhar, Md Rafi Ur Rashid, Reem E. Mohamed, Md Rafiqul Islam, Asif Karim, Kheng Cher Yeo, Sami Azam
分类: cs.CV
发布日期: 2025-10-07
💡 一句话要点
BioAutoML-NAS:基于神经架构搜索的多模态昆虫分类AutoML框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 昆虫分类 神经架构搜索 AutoML 多模态融合 生物多样性 深度学习 图像识别
📋 核心要点
- 昆虫分类在农业和生态研究中至关重要,但面临昆虫特征复杂、类别不平衡和数据量庞大的挑战。
- BioAutoML-NAS利用神经架构搜索,结合图像和元数据,自动学习最优网络结构进行昆虫分类。
- 实验表明,BioAutoML-NAS在BIOSCAN-5M和Insects-1M数据集上显著优于现有迁移学习、Transformer和AutoML方法。
📝 摘要(中文)
昆虫分类对于农业管理和生态研究至关重要,因为它直接影响作物健康和产量。然而,由于昆虫的复杂特征、类别不平衡和大规模数据集,这项任务仍然具有挑战性。为了解决这些问题,我们提出了BioAutoML-NAS,这是第一个使用多模态数据(包括图像和元数据)的BioAutoML模型,它应用神经架构搜索(NAS)来自动学习每个单元内每个连接的最佳操作。堆叠多个单元以形成完整的网络,每个单元提取详细的图像特征表示。多模态融合模块将图像嵌入与元数据相结合,使模型能够利用视觉和分类生物信息来对昆虫进行分类。交替的双层优化训练策略共同更新网络权重和架构参数,而零操作会删除不太重要的连接,从而产生稀疏、高效且高性能的架构。在BIOSCAN-5M数据集上的广泛评估表明,BioAutoML-NAS实现了96.81%的准确率、97.46%的精确率、96.81%的召回率和97.05%的F1分数,优于最先进的迁移学习、Transformer、AutoML和NAS方法,分别提高了约16%、10%和8%。在Insects-1M数据集上的进一步验证获得了93.25%的准确率、93.71%的精确率、92.74%的召回率和93.22%的F1分数。这些结果表明,BioAutoML-NAS提供了准确、可靠的昆虫分类,从而支持现代可持续农业。
🔬 方法详解
问题定义:论文旨在解决大规模生物多样性数据下,昆虫分类的准确性和效率问题。现有方法,如传统机器学习和深度学习模型,在处理复杂特征、类别不平衡和海量数据时表现不佳,需要人工设计网络结构,耗时且效果有限。
核心思路:论文的核心思路是利用神经架构搜索(NAS)自动寻找最优的网络结构,并结合多模态数据(图像和元数据)进行昆虫分类。通过NAS,模型可以自动学习每个连接的最佳操作,从而提取更有效的特征表示,提高分类准确率和效率。
技术框架:BioAutoML-NAS框架主要包含三个模块:图像特征提取模块、多模态融合模块和分类模块。图像特征提取模块由多个堆叠的Cell组成,每个Cell通过NAS自动搜索最优结构。多模态融合模块将图像嵌入与元数据进行融合,提供更全面的信息。分类模块基于融合后的特征进行昆虫分类。整个框架采用交替的双层优化训练策略,联合更新网络权重和架构参数。
关键创新:该论文的关键创新在于将神经架构搜索应用于多模态昆虫分类任务,并提出了BioAutoML-NAS框架。与传统的AutoML方法相比,BioAutoML-NAS能够更有效地搜索最优网络结构,并充分利用多模态数据的信息。此外,论文还提出了交替的双层优化训练策略和零操作,进一步提高了模型的性能和效率。
关键设计:在图像特征提取模块中,每个Cell的结构由NAS算法自动搜索确定,包括卷积核大小、激活函数类型等。多模态融合模块采用concatentation的方式将图像嵌入和元数据进行融合。损失函数采用交叉熵损失函数。在训练过程中,采用Adam优化器更新网络权重,采用REINFORCE算法更新架构参数。零操作用于剪枝不重要的连接,提高模型的稀疏性和效率。
🖼️ 关键图片
📊 实验亮点
BioAutoML-NAS在BIOSCAN-5M数据集上取得了96.81%的准确率,97.46%的精确率,96.81%的召回率和97.05%的F1分数,显著优于现有的迁移学习、Transformer和AutoML方法,分别提升了约16%、10%和8%。在Insects-1M数据集上,也取得了93.25%的准确率,证明了其泛化能力。
🎯 应用场景
BioAutoML-NAS可应用于农业病虫害监测、生物多样性研究、生态环境保护等领域。通过自动、准确地识别昆虫种类,可以帮助农民及时采取防治措施,减少农药使用,提高作物产量。同时,该技术也可用于构建大规模昆虫数据库,为生物多样性研究提供数据支持。
📄 摘要(原文)
Insect classification is important for agricultural management and ecological research, as it directly affects crop health and production. However, this task remains challenging due to the complex characteristics of insects, class imbalance, and large-scale datasets. To address these issues, we propose BioAutoML-NAS, the first BioAutoML model using multimodal data, including images, and metadata, which applies neural architecture search (NAS) for images to automatically learn the best operations for each connection within each cell. Multiple cells are stacked to form the full network, each extracting detailed image feature representations. A multimodal fusion module combines image embeddings with metadata, allowing the model to use both visual and categorical biological information to classify insects. An alternating bi-level optimization training strategy jointly updates network weights and architecture parameters, while zero operations remove less important connections, producing sparse, efficient, and high-performing architectures. Extensive evaluation on the BIOSCAN-5M dataset demonstrates that BioAutoML-NAS achieves 96.81% accuracy, 97.46% precision, 96.81% recall, and a 97.05% F1 score, outperforming state-of-the-art transfer learning, transformer, AutoML, and NAS methods by approximately 16%, 10%, and 8% respectively. Further validation on the Insects-1M dataset obtains 93.25% accuracy, 93.71% precision, 92.74% recall, and a 93.22% F1 score. These results demonstrate that BioAutoML-NAS provides accurate, confident insect classification that supports modern sustainable farming.