Assessing Multimodal Chronic Wound Embeddings with Expert Triplet Agreement

📄 arXiv: 2603.29376v1 📥 PDF

作者: Fabian Kabus, Julia Hindel, Jelena Bratulić, Meropi Karakioulaki, Ayush Gupta, Cristina Has, Thomas Brox, Abhinav Valada, Harald Binder

分类: cs.CV

发布日期: 2026-03-31


💡 一句话要点

TriDerm:利用专家三重比较评估多模态慢性伤口嵌入,提升罕见皮肤病相似病例检索。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 慢性伤口 专家知识 罕见疾病 病例检索 表征学习 三重比较

📋 核心要点

  1. 现有通用基础模型难以捕捉罕见皮肤病RDEB的临床特征,限制了相似病例检索的准确性。
  2. TriDerm框架通过专家三重比较学习伤口表征,融合视觉和文本信息,提升模型对临床相似性的理解。
  3. 实验结果表明,TriDerm在专家一致性方面优于现有单模态模型,证明了多模态融合的有效性。

📝 摘要(中文)

本研究针对隐性营养不良性大疱性表皮松解症(RDEB)这一罕见遗传性皮肤病,提出了一种名为TriDerm的多模态框架,旨在通过整合伤口图像、边界掩码和专家报告,学习可解释的伤口表征,从而帮助临床医生找到相似病例。现有通用基础模型难以可靠地捕捉这种异质性长尾疾病的临床意义特征,且专家一致性结构化测量具有挑战性。TriDerm通过专家序数比较(三重判断)评估嵌入空间,这种方法收集速度快,并能编码隐含的临床相似性知识。在视觉方面,TriDerm使用伤口级注意力池化和非对比表示学习,将视觉基础模型适配于RDEB。对于文本,研究人员使用大型语言模型进行比较查询,并通过软序数嵌入(SOE)恢复医学上有意义的表示。实验表明,视觉和文本模态捕捉了伤口表型的互补方面,融合两种模态可实现73.5%的专家一致性,优于最佳的单模态通用基础模型超过5.6个百分点。研究团队公开了专家标注工具、模型代码和代表性数据集样本。

🔬 方法详解

问题定义:论文旨在解决罕见遗传性皮肤病RDEB的相似病例检索问题。现有方法,特别是直接使用通用基础模型,无法有效捕捉RDEB伤口的复杂临床特征,导致检索结果不准确。此外,如何有效利用专家知识来指导模型学习也是一个挑战。

核心思路:论文的核心思路是利用专家对伤口相似性的三重比较(triplet judgments)作为监督信号,学习一个能够准确表征伤口特征的嵌入空间。通过融合伤口图像和临床文本信息,TriDerm旨在捕捉伤口表型的互补方面,从而提高相似病例检索的准确性。

技术框架:TriDerm框架包含视觉和文本两个主要模态的处理分支。在视觉方面,使用预训练的视觉基础模型提取伤口图像特征,并通过伤口级注意力池化来关注与伤口相关的区域。同时,采用非对比表示学习方法来优化视觉嵌入空间。在文本方面,使用大型语言模型生成比较查询,并通过软序数嵌入(SOE)将文本信息嵌入到与视觉嵌入空间对齐的空间中。最后,将视觉和文本嵌入进行融合,得到最终的伤口表征。

关键创新:该论文的关键创新在于:1) 使用专家三重比较作为监督信号,能够更有效地学习临床相关的伤口表征;2) 提出了一种多模态融合框架,能够整合伤口图像和临床文本信息,从而捕捉伤口表型的互补方面;3) 采用软序数嵌入(SOE)方法,能够将文本信息嵌入到与视觉嵌入空间对齐的空间中。

关键设计:在视觉方面,使用了预训练的视觉基础模型(具体模型未知),并采用伤口级注意力池化来关注与伤口相关的区域。非对比表示学习的具体损失函数未知。在文本方面,使用了大型语言模型(具体模型未知)生成比较查询,并通过软序数嵌入(SOE)将文本信息嵌入到与视觉嵌入空间对齐的空间中。SOE的具体实现细节未知。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

TriDerm框架在专家一致性方面达到了73.5%,相比于最佳的单模态通用基础模型,提升了5.6个百分点以上。这表明多模态融合和专家知识的有效利用能够显著提高罕见疾病病例检索的准确性。

🎯 应用场景

该研究成果可应用于罕见皮肤病RDEB的辅助诊断和治疗,通过快速检索相似病例,帮助临床医生制定更有效的治疗方案。此外,该方法也可推广到其他罕见疾病的病例检索和诊断领域,具有重要的临床应用价值和潜力。

📄 摘要(原文)

Recessive dystrophic epidermolysis bullosa (RDEB) is a rare genetic skin disorder for which clinicians greatly benefit from finding similar cases using images and clinical text. However, off-the-shelf foundation models do not reliably capture clinically meaningful features for this heterogeneous, long-tail disease, and structured measurement of agreement with experts is challenging. To address these gaps, we propose evaluating embedding spaces with expert ordinal comparisons (triplet judgments), which are fast to collect and encode implicit clinical similarity knowledge. We further introduce TriDerm, a multimodal framework that learns interpretable wound representations from small cohorts by integrating wound imagery, boundary masks, and expert reports. On the vision side, TriDerm adapts visual foundation models to RDEB using wound-level attention pooling and non-contrastive representation learning. For text, we prompt large language models with comparison queries and recover medically meaningful representations via soft ordinal embeddings (SOE). We show that visual and textual modalities capture complementary aspects of wound phenotype, and that fusing both modalities yields 73.5% agreement with experts, outperforming the best off-the-shelf single-modality foundation model by over 5.6 percentage points. We make the expert annotation tool, model code and representative dataset samples publicly available.