Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training

📄 arXiv: 2505.00422v1 📥 PDF

作者: Yu Han, Aaron Ceross, Jeroen H. M. Bergmann

分类: cs.LG, cs.CL

发布日期: 2025-05-01


💡 一句话要点

提出基于多模态Transformer和自训练的医疗器械风险自动分类方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医疗器械风险分类 多模态Transformer 自训练 交叉注意力机制 有限监督学习

📋 核心要点

  1. 医疗器械风险等级的准确分类对于监管和临床安全至关重要,现有方法在多模态信息融合方面存在不足。
  2. 论文提出一种基于Transformer的多模态框架,利用交叉注意力机制和自训练策略,提升分类准确性和泛化能力。
  3. 实验结果表明,该方法在医疗器械风险分类任务中显著优于现有方法,准确率最高可达90.4%。

📝 摘要(中文)

本文提出了一种基于Transformer的多模态框架,该框架集成了文本描述和视觉信息,用于预测医疗器械的监管分类。该模型结合了交叉注意力机制,以捕获模态间的依赖关系,并采用自训练策略,以提高在有限监督下的泛化能力。在真实监管数据集上的实验表明,该方法实现了高达90.4%的准确率和97.9%的AUROC,显著优于仅使用文本(77.2%)和仅使用图像(54.8%)的基线方法。与标准多模态融合相比,自训练机制使SVM的准确率提高了3.3个百分点(从87.1%到90.4%),macro-F1提高了1.4个点,表明伪标签可以有效地增强在有限监督下的泛化能力。消融研究进一步证实了跨模态注意力和自训练的互补优势。

🔬 方法详解

问题定义:医疗器械风险等级分类是监管和临床安全的关键环节。现有方法通常依赖单一模态的信息(如文本描述或图像),忽略了文本和图像之间的关联性,并且在数据标注有限的情况下,模型的泛化能力受到限制。因此,如何有效地融合多模态信息,并在有限监督下提高分类准确率和泛化能力,是本文要解决的核心问题。

核心思路:本文的核心思路是利用Transformer模型强大的特征提取和融合能力,同时结合交叉注意力机制来建模文本和图像之间的依赖关系。此外,通过自训练策略,利用未标注数据生成伪标签,从而扩充训练数据,提高模型在有限监督下的泛化能力。这种设计旨在充分利用多模态信息,并克服数据标注不足的挑战。

技术框架:该框架主要包含以下几个模块:1) 文本编码器:使用Transformer模型对医疗器械的文本描述进行编码,提取文本特征。2) 图像编码器:使用卷积神经网络(CNN)对医疗器械的图像进行编码,提取图像特征。3) 跨模态融合模块:利用交叉注意力机制,将文本特征和图像特征进行融合,学习模态间的依赖关系。4) 分类器:使用全连接层将融合后的特征映射到风险等级类别,进行分类预测。5) 自训练模块:利用已训练的模型对未标注数据进行预测,生成伪标签,并将伪标签数据加入训练集,重新训练模型。

关键创新:本文最重要的技术创新点在于多模态Transformer和自训练策略的结合。传统的Transformer主要应用于单模态数据处理,而本文将其扩展到多模态领域,通过交叉注意力机制实现了文本和图像特征的有效融合。此外,自训练策略能够利用未标注数据,有效缓解了数据标注不足的问题,提高了模型的泛化能力。

关键设计:在文本编码器中,使用了预训练的BERT模型作为初始化参数,以提高文本特征的提取能力。在图像编码器中,使用了ResNet模型,以提取图像的深层特征。在交叉注意力机制中,使用了多头注意力机制,以捕捉不同角度的模态间依赖关系。在自训练过程中,设置了置信度阈值,只选择置信度高的伪标签数据加入训练集,以避免引入噪声。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,该方法在医疗器械风险分类任务中取得了显著的性能提升。与仅使用文本的基线方法相比,准确率提高了13.2个百分点(从77.2%到90.4%),AUROC提高了20.7个百分点(从77.2%到97.9%)。与仅使用图像的基线方法相比,提升更为显著。自训练机制也带来了明显的性能提升,SVM的准确率提高了3.3个百分点,macro-F1提高了1.4个点。

🎯 应用场景

该研究成果可应用于医疗器械监管部门,实现医疗器械风险等级的自动分类,提高监管效率和准确性。此外,该方法也可推广到其他多模态分类任务中,例如产品安全评估、故障诊断等领域,具有广泛的应用前景和实际价值。未来,可以进一步研究如何利用更先进的深度学习技术,提升模型的性能和鲁棒性。

📄 摘要(原文)

Accurate classification of medical device risk levels is essential for regulatory oversight and clinical safety. We present a Transformer-based multimodal framework that integrates textual descriptions and visual information to predict device regulatory classification. The model incorporates a cross-attention mechanism to capture intermodal dependencies and employs a self-training strategy for improved generalization under limited supervision. Experiments on a real-world regulatory dataset demonstrate that our approach achieves up to 90.4% accuracy and 97.9% AUROC, significantly outperforming text-only (77.2%) and image-only (54.8%) baselines. Compared to standard multimodal fusion, the self-training mechanism improved SVM performance by 3.3 percentage points in accuracy (from 87.1% to 90.4%) and 1.4 points in macro-F1, suggesting that pseudo-labeling can effectively enhance generalization under limited supervision. Ablation studies further confirm the complementary benefits of both cross-modal attention and self-training.