FT-ARM: Fine-Tuned Agentic Reflection Multimodal Language Model for Pressure Ulcer Severity Classification with Reasoning
作者: Reza Saadati Fard, Emmanuel Agu, Palawat Busaranuvong, Deepak Kumar, Shefalika Gautam, Bengisu Tulu, Diane Strong, Lorraine Loretz
分类: cs.CV, cs.AI
发布日期: 2025-10-28
💡 一句话要点
FT-ARM:用于压力性溃疡分级的Agentic自反思多模态大语言模型
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态学习 大语言模型 压力性溃疡分级 Agentic自反思 医学图像分析
📋 核心要点
- 现有基于CNN和ViT的压力性溃疡分级方法可解释性有限,难以模拟临床医生的诊断过程。
- FT-ARM通过Agentic自反思机制,模拟临床医生诊断再评估过程,迭代优化预测结果。
- 实验表明,FT-ARM在压力损伤图像数据集上达到了85%的准确率,超越了传统CNN模型。
📝 摘要(中文)
本文提出了一种名为FT-ARM(Fine-Tuned Agentic Reflection Multimodal model)的微调多模态大语言模型,用于压力性溃疡(PU)严重程度分类。压力性溃疡是一种常见且严重的医疗问题,准确分类其严重程度(I-IV期)对于适当治疗至关重要。FT-ARM受到临床医生诊断再评估的启发,通过对视觉特征和文本编码的临床知识进行推理,迭代地改进其预测,从而提高准确性和一致性。在公开的压力损伤图像数据集(PIID)上,基于LLaMA 3.2 90B微调的FT-ARM在PU I-IV期分类中达到了85%的准确率,超过了之前的基于CNN的模型4%。FT-ARM专为实时推理而设计和测试,并生成基于临床的自然语言解释,提高了可解释性和信任度。通过整合多模态输入的微调和反思推理,FT-ARM提高了自动化伤口评估系统的可靠性、透明性和临床适用性。
🔬 方法详解
问题定义:压力性溃疡的准确分期对于患者的治疗至关重要。然而,由于视觉特征的细微差别和主观解释,临床医生之间存在差异。现有的基于CNN和ViT的方法虽然取得了一定的准确率,但缺乏可解释性,难以理解模型的决策过程。
核心思路:FT-ARM的核心思路是模拟临床医生诊断再评估的过程。医生通常会结合视觉信息和临床知识,反复评估和修正诊断结果。FT-ARM通过Agentic自反思机制,让模型能够像医生一样,迭代地反思和改进其预测。
技术框架:FT-ARM是一个多模态大语言模型,其整体架构包含以下几个主要模块:1) 视觉特征提取模块:用于提取压力性溃疡图像的视觉特征。2) 文本编码模块:用于编码临床知识和文本描述。3) Agentic自反思模块:这是FT-ARM的核心模块,它通过迭代推理,结合视觉特征和文本信息,不断优化预测结果。4) 分类模块:用于最终的压力性溃疡分期。
关键创新:FT-ARM的关键创新在于其Agentic自反思机制。与传统的单次预测方法不同,FT-ARM通过迭代推理,模拟了临床医生的诊断过程,从而提高了准确性和一致性。此外,FT-ARM还能够生成自然语言解释,提高了模型的可解释性。
关键设计:FT-ARM基于LLaMA 3.2 90B进行微调。Agentic自反思模块的设计借鉴了强化学习的思想,通过奖励机制鼓励模型进行有效的反思和改进。损失函数方面,采用了交叉熵损失函数,用于优化分类结果。具体参数设置细节论文中未详细说明。
🖼️ 关键图片
📊 实验亮点
FT-ARM在公开的压力损伤图像数据集(PIID)上取得了显著的成果,达到了85%的准确率,相比于之前的基于CNN的模型,准确率提升了4%。此外,FT-ARM还能够生成自然语言解释,提高了模型的可解释性和临床信任度。该模型的设计和测试考虑了实时推理的需求,更贴近实际应用场景。
🎯 应用场景
FT-ARM可应用于临床辅助诊断,帮助医生更准确、更一致地对压力性溃疡进行分期,从而制定更有效的治疗方案。该技术还可用于远程医疗和患者自我评估,提高医疗服务的可及性和效率。未来,FT-ARM有望扩展到其他类型的伤口评估和疾病诊断。
📄 摘要(原文)
Pressure ulcers (PUs) are a serious and prevalent healthcare concern. Accurate classification of PU severity (Stages I-IV) is essential for proper treatment but remains challenging due to subtle visual distinctions and subjective interpretation, leading to variability among clinicians. Prior AI-based approaches using Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) achieved promising accuracy but offered limited interpretability. We present FT-ARM (Fine-Tuned Agentic Reflection Multimodal model), a fine-tuned multimodal large language model (MLLM) with an agentic self-reflection mechanism for pressure ulcer severity classification. Inspired by clinician-style diagnostic reassessment, FT-ARM iteratively refines its predictions by reasoning over visual features and encoded clinical knowledge from text, enhancing both accuracy and consistency. On the publicly available Pressure Injury Image Dataset (PIID), FT-ARM, fine-tuned from LLaMA 3.2 90B, achieved 85% accuracy in classifying PU stages I-IV, surpassing prior CNN-based models by +4%. Unlike earlier CNN/ViT studies that relied solely on offline evaluations, FT-ARM is designed and tested for live inference, reflecting real-time deployment conditions. Furthermore, it produces clinically grounded natural-language explanations, improving interpretability and trust. By integrating fine-tuning and reflective reasoning across multimodal inputs, FT-ARM advances the reliability, transparency, and clinical applicability of automated wound assessment systems, addressing the critical need for consistent and explainable PU staging to support improved patient care.