NEURAL: Attention-Guided Pruning for Unified Multimodal Resource-Constrained Clinical Evaluation

作者: Devvrat Joshi, Islem Rekik

分类: cs.CV, cs.LG

发布日期: 2025-08-13

🔗 代码/项目: GITHUB

💡 一句话要点

提出NEURAL以解决资源受限临床环境中的多模态医学影像数据压缩问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态医学影像 数据压缩 临床评估 交叉注意力 知识图 深度学习 放射学 图形表示

📋 核心要点

多模态医学影像数据的快速增长导致存储和传输的挑战，尤其在资源受限的临床环境中。
NEURAL框架通过语义引导的数据压缩，利用交叉注意力分数对影像进行结构性修剪，保留关键诊断区域。
在MIMIC-CXR和CheXpert Plus数据集上，NEURAL实现了93.4%-97.7%的数据大小减少，同时保持高达0.95的AUC性能。

📝 摘要（中文）

随着多模态医学影像数据的快速增长，存储和传输面临重大挑战，尤其是在资源受限的临床环境中。本文提出了NEURAL，一个通过语义引导的数据压缩框架，利用经过微调的生成视觉-语言模型中的交叉注意力分数，对胸部X光影像进行结构性修剪，仅保留诊断关键区域。该方法将影像转化为高度压缩的图形表示，并将修剪后的视觉图与来自临床报告的知识图融合，创建一个通用数据结构，简化后续建模。NEURAL在MIMIC-CXR和CheXpert Plus数据集上验证，图像数据大小减少93.4%-97.7%，同时保持0.88-0.95的高诊断性能，超越了使用未压缩数据的基线模型。

🔬 方法详解

问题定义：本文旨在解决在资源受限的临床环境中，多模态医学影像数据存储和传输的挑战。现有方法往往无法有效压缩数据，同时保持诊断性能。

核心思路：NEURAL通过利用经过微调的生成视觉-语言模型中的交叉注意力分数，进行影像的结构性修剪，保留诊断关键区域，从而实现高效的数据压缩。

技术框架：NEURAL的整体架构包括两个主要模块：首先是影像的结构性修剪，利用交叉注意力分数识别关键区域；其次是将修剪后的视觉图与知识图融合，形成一个统一的图形表示，简化后续的建模过程。

关键创新：NEURAL的核心创新在于将语义引导的压缩与图形表示结合，创建了一个通用的数据结构，解决了数据大小与临床实用性之间的权衡。与现有方法相比，NEURAL在保持高诊断性能的同时，显著减少了数据大小。

关键设计：在设计中，NEURAL采用了特定的损失函数以优化影像的压缩效果，并利用深度学习模型进行交叉注意力分数的计算，确保保留关键的诊断信息。

📊 实验亮点

NEURAL在MIMIC-CXR和CheXpert Plus数据集上实现了93.4%-97.7%的影像数据大小减少，同时维持了0.88-0.95的AUC性能，显著优于使用未压缩数据的基线模型，展示了其在多模态医学影像处理中的有效性和优势。

🎯 应用场景

NEURAL的研究成果在资源受限的临床环境中具有广泛的应用潜力，尤其是在远程放射学和高效工作流程中。通过有效压缩影像数据，NEURAL能够提高数据传输效率，降低存储成本，同时保持高水平的诊断性能，促进医疗服务的可及性和效率。

📄 摘要（原文）

The rapid growth of multimodal medical imaging data presents significant storage and transmission challenges, particularly in resource-constrained clinical settings. We propose NEURAL, a novel framework that addresses this by using semantics-guided data compression. Our approach repurposes cross-attention scores between the image and its radiological report from a fine-tuned generative vision-language model to structurally prune chest X-rays, preserving only diagnostically critical regions. This process transforms the image into a highly compressed, graph representation. This unified graph-based representation fuses the pruned visual graph with a knowledge graph derived from the clinical report, creating a universal data structure that simplifies downstream modeling. Validated on the MIMIC-CXR and CheXpert Plus dataset for pneumonia detection, NEURAL achieves a 93.4-97.7\% reduction in image data size while maintaining a high diagnostic performance of 0.88-0.95 AUC, outperforming other baseline models that use uncompressed data. By creating a persistent, task-agnostic data asset, NEURAL resolves the trade-off between data size and clinical utility, enabling efficient workflows and teleradiology without sacrificing performance. Our NEURAL code is available at https://github.com/basiralab/NEURAL.

NEURAL: Attention-Guided Pruning for Unified Multimodal Resource-Constrained Clinical Evaluation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册