On the Importance of Text Preprocessing for Multimodal Representation Learning and Pathology Report Generation

📄 arXiv: 2502.19285v3 📥 PDF

作者: Ruben T. Lucassen, Tijn van de Luijtgaarden, Sander P. J. Moonemans, Gerben E. Breimer, Willeke A. M. Blokx, Mitko Veta

分类: cs.CV

发布日期: 2025-02-26 (更新: 2025-06-06)

备注: 11 pages, 1 figure


💡 一句话要点

针对病理报告生成,文本预处理能有效避免多模态表征学习中的幻觉问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 病理报告生成 视觉-语言模型 文本预处理 多模态学习 幻觉问题

📋 核心要点

  1. 现有视觉-语言模型在病理报告生成中易受幻觉信息干扰,因为训练数据包含图像无法推断的信息。
  2. 该研究通过文本预处理,仅保留描述细胞和组织外观的句子,从而减少模型对无关信息的依赖。
  3. 实验表明,使用预处理文本训练的模型能有效避免报告生成中的幻觉,但跨模态检索性能略有下降。

📝 摘要(中文)

病理学中的视觉-语言模型能够实现多模态病例检索和自动报告生成。然而,许多已开发的模型在包含无法从配对的全切片图像中推断的信息(例如,患者病史)的病理报告上进行训练,这可能导致生成的报告中出现幻觉语句。为此,我们研究了从病理报告中选择信息进行视觉-语言建模如何影响多模态表征和生成报告的质量。更具体地说,我们将一个在完整报告上训练的模型与一个在预处理报告上训练的模型进行比较,后者仅包括基于H&E染色的切片描述细胞和组织外观的句子。在实验中,我们以BLIP-2框架为基础,使用了一个包含42433张H&E染色的全切片图像和19636份相应病理报告的皮肤黑色素细胞病变数据集。使用图像到文本和文本到图像检索以及专家病理学家对生成报告的定性评估来评估模型性能。结果表明,文本预处理可以防止报告生成中的幻觉。尽管生成报告的质量有所提高,但在完整报告上训练视觉-语言模型显示出更好的跨模态检索性能。

🔬 方法详解

问题定义:现有视觉-语言模型在病理报告生成任务中,由于训练数据(病理报告)包含大量与图像无关的信息(如患者病史),导致模型生成报告时出现“幻觉”,即生成与图像内容不符的语句。现有方法没有有效区分图像可推断信息和非图像信息,模型容易学习到错误的关联。

核心思路:该论文的核心思路是通过文本预处理,从原始病理报告中筛选出仅描述细胞和组织外观的句子,去除与图像内容无关的信息。这样可以强制模型更加关注图像本身的内容,减少对外部信息的依赖,从而降低生成报告时出现幻觉的可能性。这种方法的核心在于数据清洗,提高训练数据的质量。

技术框架:该研究基于BLIP-2框架构建视觉-语言模型。整体流程包括:1) 数据预处理:对病理报告进行文本预处理,提取描述细胞和组织外观的句子;2) 模型训练:使用预处理后的文本和对应的全切片图像训练BLIP-2模型;3) 模型评估:使用图像到文本和文本到图像检索任务以及专家评估来评估模型性能。

关键创新:该研究的关键创新在于强调了文本预处理在病理报告生成任务中的重要性,并提出了一种简单有效的文本预处理方法,即仅保留描述细胞和组织外观的句子。虽然文本预处理本身不是一个全新的技术,但将其应用于病理报告生成并证明其能有效减少幻觉是一个重要的贡献。与现有方法相比,该方法更加注重数据质量,而非仅仅依赖于复杂的模型结构。

关键设计:该研究的关键设计在于文本预处理的策略。具体来说,他们只保留了病理报告中描述细胞和组织外观的句子,这些句子通常包含关于细胞形态、组织结构、染色情况等信息,这些信息可以直接从H&E染色的全切片图像中观察到。而像患者病史、临床诊断等信息则被排除在外。此外,该研究使用了BLIP-2作为基础模型,BLIP-2是一种预训练的视觉-语言模型,具有强大的跨模态表征能力。具体参数设置和损失函数等细节可能与原始BLIP-2论文保持一致,论文中未明确提及。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,使用预处理文本训练的BLIP-2模型在报告生成任务中能够有效减少幻觉信息的产生,生成更符合图像内容的报告。虽然在跨模态检索任务中性能略有下降,但专家评估认为生成报告的质量显著提高。这表明文本预处理在提高生成报告质量方面具有重要作用。

🎯 应用场景

该研究成果可应用于病理诊断辅助系统,帮助病理学家快速生成高质量的病理报告,减少人工干预,提高诊断效率和准确性。通过避免幻觉信息的生成,可以提高报告的可信度,为临床决策提供更可靠的依据。未来,该方法可推广到其他医学图像报告生成任务中。

📄 摘要(原文)

Vision-language models in pathology enable multimodal case retrieval and automated report generation. Many of the models developed so far, however, have been trained on pathology reports that include information which cannot be inferred from paired whole slide images (e.g., patient history), potentially leading to hallucinated sentences in generated reports. To this end, we investigate how the selection of information from pathology reports for vision-language modeling affects the quality of the multimodal representations and generated reports. More concretely, we compare a model trained on full reports against a model trained on preprocessed reports that only include sentences describing the cell and tissue appearances based on the H&E-stained slides. For the experiments, we built upon the BLIP-2 framework and used a cutaneous melanocytic lesion dataset of 42,433 H&E-stained whole slide images and 19,636 corresponding pathology reports. Model performance was assessed using image-to-text and text-to-image retrieval, as well as qualitative evaluation of the generated reports by an expert pathologist. Our results demonstrate that text preprocessing prevents hallucination in report generation. Despite the improvement in the quality of the generated reports, training the vision-language model on full reports showed better cross-modal retrieval performance.