Learning from Medical Entity Trees: An Entity-Centric Medical Data Engineering Framework for MLLMs

作者: Jianghang Lin, Haihua Yang, Deli Yu, Kai Wu, Kai Ye, Jinghao Lin, Zihan Wang, Yuhang Wu, Liujuan Cao

分类: cs.CL

发布日期: 2026-04-28

💡 一句话要点

提出基于医学实体树的MLLM数据工程框架，提升医学领域复杂推理能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学多模态学习 医学实体树 知识图谱 数据工程 多模态大语言模型

📋 核心要点

现有MLLM医学应用受限于粗粒度数据划分，无法有效捕捉医学知识的层次性和关联性。
构建医学实体树MET，并提出数据引擎，实现节点引导检索、混合过滤对齐和知识感知数据合成。
实验表明，该方法显著提升MLLM在医学领域的性能，尤其是在处理复杂临床查询方面。

📝 摘要（中文）

多模态大型语言模型(MLLM)在医学应用中展现出变革潜力，但传统的数据管理策略依赖于按模态或部门进行粗粒度划分，限制了其性能。这种碎片化的方法无法捕捉临床医学知识的层次性和互联性，限制了模型进行细粒度识别和复杂推理的能力。本文提出了一种新的以实体为中心的医学数据工程框架。我们自动从权威医学文献中提取实体，构建医学实体树(MET)，这是一种将疾病、解剖结构、模态和症状系统地编码到统一知识库中的层次结构。基于MET，我们提出了一个先进的数据引擎，包括：(1)节点引导检索，将原始数据锚定到特定的医学概念；(2)一个两阶段的混合过滤和对齐流程，以确保精确的视觉-语义对应；(3)知识感知的数据合成，利用结构约束生成丰富的标题和有针对性的推理VQA对。在六个医学基准上的广泛评估表明，我们的方法显著增强了通用MLLM的医学能力，提高了它们处理复杂临床查询的能力，并在不同的医学环境中实现了最先进的性能。

🔬 方法详解

问题定义：现有医学多模态大语言模型的数据构建方法通常采用粗粒度的模态或科室划分，忽略了医学知识内在的层次结构和实体间的关联关系。这导致模型难以进行细粒度的识别和复杂的推理，限制了其在临床应用中的潜力。

核心思路：本文的核心思路是构建一个以医学实体为中心的知识图谱，即医学实体树（MET），并以此为基础设计数据工程流程。通过将医学知识组织成层次结构，并利用该结构指导数据检索、过滤和合成，从而提升模型对医学概念的理解和推理能力。

技术框架：该框架主要包含三个模块：1) 医学实体树构建：自动从医学文献中提取实体，构建MET，包含疾病、解剖结构、模态和症状等信息。2) 数据引擎：包含节点引导检索，将原始数据与特定医学概念关联；两阶段混合过滤和对齐，确保视觉-语义对应；知识感知的数据合成，生成增强的标题和推理VQA对。3) 模型训练与评估：使用构建的数据集训练MLLM，并在多个医学基准上进行评估。

关键创新：关键创新在于提出了以实体为中心的医学数据工程框架，将医学知识显式地编码到数据构建过程中。与传统的基于模态或科室的数据划分方法相比，该方法能够更好地捕捉医学知识的内在结构和实体间的关联关系，从而提升模型的医学理解和推理能力。

关键设计：MET的构建采用自动实体提取和层次结构构建算法，具体算法细节未知。数据引擎中的两阶段混合过滤和对齐流程，以及知识感知的数据合成方法的具体实现细节也未知。节点引导检索的具体实现方式未知，可能涉及到相似度计算或知识图谱嵌入等技术。

🖼️ 关键图片

📊 实验亮点

该方法在六个医学基准测试中取得了显著提升，表明其能够有效增强通用MLLM的医学能力。具体性能数据和对比基线未知，但结果表明该方法提高了模型处理复杂临床查询的能力，并在不同医学环境中实现了最先进的性能。具体提升幅度未知。

🎯 应用场景

该研究成果可应用于医学影像诊断、辅助临床决策、医学知识问答等领域。通过提升MLLM对医学知识的理解和推理能力，可以帮助医生更准确地诊断疾病、制定治疗方案，并为患者提供更优质的医疗服务。未来，该框架可扩展到其他专业领域，构建领域知识图谱，提升AI在各行业的应用水平。

📄 摘要（原文）

Multimodal Large Language Models (MLLMs) have shown transformative potential in medical applications, yet their performance is hindered by conventional data curation strategies that rely on coarse-grained partitioning by modality or department. Such fragmented approaches fail to capture the hierarchical and interconnected nature of clinical medical knowledge, limiting the models' ability to perform fine-grained recognition and complex reasoning. In this paper, we propose a novel Entity-Centric Medical Data Engineering framework. We automatically extract entities from authoritative medical literature to construct a Medical Entity Tree (MET), a hierarchical structure that systematically encodes diseases, anatomical structures, modalities, and symptoms into a unified knowledge repository. Building upon the MET, we propose an advanced data engine that includes: (1) node-guided retrieval to anchor raw data to specific medical concepts, (2) a two-stage hybrid filtering and alignment pipeline to ensure precise visual-semantic correspondence, and (3) knowledge-aware data synthesis to generate enriched captions and targeted reasoning VQA pairs, leveraging structural constraints. Extensive evaluations across six medical benchmarks demonstrate that our approach significantly enhances the medical capabilities of general-purpose MLLMs, improving their ability to handle complex clinical queries and achieve state-of-the-art performance in diverse medical contexts.

Learning from Medical Entity Trees: An Entity-Centric Medical Data Engineering Framework for MLLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理