Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training

作者: Yu Han, Aaron Ceross, Jeroen H. M. Bergmann

分类: cs.LG, cs.CL

发布日期: 2025-05-01

💡 一句话要点

提出基于多模态Transformer和自训练的医疗器械风险自动分类方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医疗器械风险分类 多模态Transformer 自训练 交叉注意力机制 有限监督学习

📋 核心要点

医疗器械风险等级的准确分类对于监管和临床安全至关重要，现有方法在多模态信息融合方面存在不足。
论文提出一种基于Transformer的多模态框架，利用交叉注意力机制和自训练策略，提升分类准确性和泛化能力。
实验结果表明，该方法在医疗器械风险分类任务中显著优于现有方法，准确率最高可达90.4%。

📝 摘要（中文）

本文提出了一种基于Transformer的多模态框架，该框架集成了文本描述和视觉信息，用于预测医疗器械的监管分类。该模型结合了交叉注意力机制，以捕获模态间的依赖关系，并采用自训练策略，以提高在有限监督下的泛化能力。在真实监管数据集上的实验表明，该方法实现了高达90.4%的准确率和97.9%的AUROC，显著优于仅使用文本（77.2%）和仅使用图像（54.8%）的基线方法。与标准多模态融合相比，自训练机制使SVM的准确率提高了3.3个百分点（从87.1%到90.4%），macro-F1提高了1.4个点，表明伪标签可以有效地增强在有限监督下的泛化能力。消融研究进一步证实了跨模态注意力和自训练的互补优势。

🔬 方法详解

问题定义：医疗器械风险等级分类是监管和临床安全的关键环节。现有方法通常依赖单一模态的信息（如文本描述或图像），忽略了文本和图像之间的关联性，并且在数据标注有限的情况下，模型的泛化能力受到限制。因此，如何有效地融合多模态信息，并在有限监督下提高分类准确率和泛化能力，是本文要解决的核心问题。

核心思路：本文的核心思路是利用Transformer模型强大的特征提取和融合能力，同时结合交叉注意力机制来建模文本和图像之间的依赖关系。此外，通过自训练策略，利用未标注数据生成伪标签，从而扩充训练数据，提高模型在有限监督下的泛化能力。这种设计旨在充分利用多模态信息，并克服数据标注不足的挑战。

技术框架：该框架主要包含以下几个模块：1) 文本编码器：使用Transformer模型对医疗器械的文本描述进行编码，提取文本特征。2) 图像编码器：使用卷积神经网络（CNN）对医疗器械的图像进行编码，提取图像特征。3) 跨模态融合模块：利用交叉注意力机制，将文本特征和图像特征进行融合，学习模态间的依赖关系。4) 分类器：使用全连接层将融合后的特征映射到风险等级类别，进行分类预测。5) 自训练模块：利用已训练的模型对未标注数据进行预测，生成伪标签，并将伪标签数据加入训练集，重新训练模型。

关键创新：本文最重要的技术创新点在于多模态Transformer和自训练策略的结合。传统的Transformer主要应用于单模态数据处理，而本文将其扩展到多模态领域，通过交叉注意力机制实现了文本和图像特征的有效融合。此外，自训练策略能够利用未标注数据，有效缓解了数据标注不足的问题，提高了模型的泛化能力。

关键设计：在文本编码器中，使用了预训练的BERT模型作为初始化参数，以提高文本特征的提取能力。在图像编码器中，使用了ResNet模型，以提取图像的深层特征。在交叉注意力机制中，使用了多头注意力机制，以捕捉不同角度的模态间依赖关系。在自训练过程中，设置了置信度阈值，只选择置信度高的伪标签数据加入训练集，以避免引入噪声。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在医疗器械风险分类任务中取得了显著的性能提升。与仅使用文本的基线方法相比，准确率提高了13.2个百分点（从77.2%到90.4%），AUROC提高了20.7个百分点（从77.2%到97.9%）。与仅使用图像的基线方法相比，提升更为显著。自训练机制也带来了明显的性能提升，SVM的准确率提高了3.3个百分点，macro-F1提高了1.4个点。

🎯 应用场景

该研究成果可应用于医疗器械监管部门，实现医疗器械风险等级的自动分类，提高监管效率和准确性。此外，该方法也可推广到其他多模态分类任务中，例如产品安全评估、故障诊断等领域，具有广泛的应用前景和实际价值。未来，可以进一步研究如何利用更先进的深度学习技术，提升模型的性能和鲁棒性。

📄 摘要（原文）

Accurate classification of medical device risk levels is essential for regulatory oversight and clinical safety. We present a Transformer-based multimodal framework that integrates textual descriptions and visual information to predict device regulatory classification. The model incorporates a cross-attention mechanism to capture intermodal dependencies and employs a self-training strategy for improved generalization under limited supervision. Experiments on a real-world regulatory dataset demonstrate that our approach achieves up to 90.4% accuracy and 97.9% AUROC, significantly outperforming text-only (77.2%) and image-only (54.8%) baselines. Compared to standard multimodal fusion, the self-training mechanism improved SVM performance by 3.3 percentage points in accuracy (from 87.1% to 90.4%) and 1.4 points in macro-F1, suggesting that pseudo-labeling can effectively enhance generalization under limited supervision. Ablation studies further confirm the complementary benefits of both cross-modal attention and self-training.

Toward Automated Regulatory Decision-Making: Trustworthy Medical Device Risk Classification with Multimodal Transformers and Self-Training

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理