Automated Histopathology Report Generation via Pyramidal Feature Extraction and the UNI Foundation Model
作者: Ahmet Halici, Ece Tugba Cebeci, Musa Balci, Mustafa Cini, Serkan Sokmen
分类: eess.IV, cs.AI, cs.CV
发布日期: 2026-02-18
备注: 9 pages. Equal contribution: Ahmet Halici, Ece Tugba Cebeci, Musa Balci
💡 一句话要点
提出基于金字塔特征提取和UNI基础模型的自动组织病理学报告生成方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 组织病理学 报告生成 全切片图像 视觉语言模型 Transformer 金字塔特征提取 检索验证 BioGPT
📋 核心要点
- 组织病理学全切片图像生成诊断文本面临输入图像巨大和需要精确领域语言的挑战。
- 该方法结合金字塔特征提取、UNI Vision Transformer和Transformer解码器,并使用BioGPT进行token化,生成诊断报告。
- 通过检索验证步骤,将生成的报告与参考语料库进行比较,以提高报告的可靠性和准确性。
📝 摘要(中文)
本文提出了一种分层视觉语言框架,用于从组织病理学全切片图像(WSI)自动生成诊断报告。该框架结合了冻结的病理学基础模型和Transformer解码器。为了处理WSI,采用了多分辨率金字塔式切片选择(下采样因子为2^3到2^6),并使用拉普拉斯方差和基于HSV的标准去除背景和伪影。使用UNI Vision Transformer提取切片特征,并将其投影到6层Transformer解码器,通过交叉注意力生成诊断文本。为了更好地表示生物医学术语,使用BioGPT对输出进行标记化。最后,添加了一个基于检索的验证步骤,使用Sentence BERT嵌入将生成的报告与参考语料库进行比较;如果找到高度相似的匹配项,则将生成的报告替换为检索到的真实参考,以提高可靠性。
🔬 方法详解
问题定义:组织病理学报告生成任务旨在根据给定的组织病理学全切片图像(WSI)自动生成诊断报告。现有的方法难以处理WSI的巨大尺寸,并且难以生成准确、专业的领域特定语言报告。此外,现有方法在保证生成报告的可靠性方面存在不足。
核心思路:本文的核心思路是利用预训练的病理学基础模型(UNI Vision Transformer)提取图像特征,并结合Transformer解码器生成文本报告。通过多分辨率金字塔式切片选择降低计算复杂度,并使用检索验证步骤提高报告的可靠性。
技术框架:该框架包含以下主要模块:1) 多分辨率金字塔式切片选择:对WSI进行不同尺度的下采样,并去除背景和伪影。2) 特征提取:使用UNI Vision Transformer提取切片特征。3) 报告生成:使用Transformer解码器,通过交叉注意力机制将图像特征转换为文本报告。4) 检索验证:使用Sentence BERT嵌入将生成的报告与参考语料库进行比较,并根据相似度决定是否替换生成的报告。
关键创新:该方法的主要创新点在于:1) 结合了预训练的病理学基础模型和Transformer解码器,充分利用了预训练模型的知识。2) 提出了多分辨率金字塔式切片选择方法,有效降低了计算复杂度。3) 引入了检索验证步骤,提高了生成报告的可靠性。
关键设计:多分辨率金字塔式切片选择的下采样因子为2^3到2^6。使用拉普拉斯方差和基于HSV的标准去除背景和伪影。Transformer解码器包含6层。使用BioGPT对输出进行token化。检索验证步骤使用Sentence BERT嵌入计算相似度,并设置阈值来决定是否替换生成的报告。具体阈值大小未知。
📊 实验亮点
论文提出了一种新颖的组织病理学报告自动生成框架,该框架结合了预训练的病理学基础模型和Transformer解码器,并引入了检索验证步骤。尽管论文中没有提供具体的性能数据和对比基线,但检索验证步骤的引入有望显著提高生成报告的可靠性。
🎯 应用场景
该研究成果可应用于病理诊断辅助系统,帮助病理学家快速生成初步诊断报告,提高诊断效率和准确性。此外,该技术还可以用于远程病理诊断,为缺乏病理学家的地区提供诊断服务。未来,该技术有望与人工智能辅助诊断系统相结合,实现更智能化的病理诊断。
📄 摘要(原文)
Generating diagnostic text from histopathology whole slide images (WSIs) is challenging due to the gigapixel scale of the input and the requirement for precise, domain specific language. We propose a hierarchical vision language framework that combines a frozen pathology foundation model with a Transformer decoder for report generation. To make WSI processing tractable, we perform multi resolution pyramidal patch selection (downsampling factors 2^3 to 2^6) and remove background and artifacts using Laplacian variance and HSV based criteria. Patch features are extracted with the UNI Vision Transformer and projected to a 6 layer Transformer decoder that generates diagnostic text via cross attention. To better represent biomedical terminology, we tokenize the output using BioGPT. Finally, we add a retrieval based verification step that compares generated reports with a reference corpus using Sentence BERT embeddings; if a high similarity match is found, the generated report is replaced with the retrieved ground truth reference to improve reliability.