Performance Evaluation of Open-Source Large Language Models for Assisting Pathology Report Writing in Japanese

📄 arXiv: 2603.11597v1 📥 PDF

作者: Masataka Kawai, Singo Sakashita, Shumpei Ishikawa, Shogo Watanabe, Anna Matsuoka, Mikio Sakurai, Yasuto Fujimoto, Yoshiyuki Takahara, Atsushi Ohara, Hirohiko Miyake, Genichiro Ishii

分类: cs.CL, cs.AI

发布日期: 2026-03-12

备注: 9 pages (including bibliography), 2 figures, 6 tables


💡 一句话要点

评估开源大语言模型在日语病理报告写作辅助中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 病理报告 日语处理 自然语言处理 医学文本 性能评估

📋 核心要点

  1. 目前缺乏对大型语言模型在日语病理报告写作辅助方面的性能评估。
  2. 本研究通过多项任务评估开源LLM,包括文本生成、信息提取和错误纠正。
  3. 实验表明,特定模型在结构化报告和纠错方面有优势,但解释性文本偏好差异大。

📝 摘要(中文)

本研究评估了七个开源大语言模型(LLMs)在日语病理报告写作辅助方面的性能。评估从三个角度进行:(A)按照预定义格式生成和提取病理诊断文本;(B)纠正日语病理报告中的错别字;(C)病理学家和临床医生对模型生成的解释性文本进行主观评估。结果表明,思维模型和医学专业模型在需要推理的结构化报告任务和错别字纠正方面表现出优势。相比之下,对解释性输出的偏好在评估者之间差异很大。虽然LLMs的效用因任务而异,但我们的发现表明,开源LLMs在有限但临床相关的场景中可用于辅助日语病理报告写作。

🔬 方法详解

问题定义:论文旨在评估开源大型语言模型(LLMs)在辅助日语病理报告写作方面的能力。现有方法缺乏对日语病理报告场景下LLM性能的系统性评估,无法有效指导LLM在该领域的应用。病理报告写作涉及结构化信息提取、文本生成和错误纠正等多项任务,对LLM的推理和语言理解能力提出了挑战。

核心思路:论文的核心思路是通过设计一系列评估任务,全面考察LLM在日语病理报告写作辅助方面的能力。这些任务涵盖了结构化报告生成、信息提取、错别字纠正以及解释性文本生成等多个方面。通过对不同LLM在这些任务上的表现进行比较分析,可以了解它们在不同场景下的优势和局限性,为LLM在该领域的应用提供指导。

技术框架:论文采用的评估框架包括三个主要部分:(A) 病理诊断文本的生成和信息提取,要求模型按照预定义的格式输出;(B) 日语病理报告中的错别字纠正,考察模型的文本校对能力;(C) 病理学家和临床医生对模型生成的解释性文本进行主观评估,了解专业人员对模型输出的认可度。研究选择了七个开源LLM进行评估,并针对每个任务设计了相应的评估指标。

关键创新:该研究的创新之处在于首次系统性地评估了开源LLM在日语病理报告写作辅助方面的性能。通过多角度的评估任务设计,全面考察了LLM在不同场景下的能力,为LLM在该领域的应用提供了有价值的参考。此外,研究还引入了专业人员的主观评估,更真实地反映了LLM在实际应用中的效果。

关键设计:在评估任务设计方面,研究针对结构化报告生成任务,预定义了报告格式,并要求模型按照该格式输出。在错别字纠正任务中,研究采用了真实的病理报告数据,并设计了相应的评估指标。在主观评估方面,研究邀请了病理学家和临床医生对模型生成的解释性文本进行评分,并分析了不同评估者之间的偏好差异。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,思维模型和医学专业模型在结构化报告生成和错别字纠正方面表现出优势。然而,对于解释性文本,不同病理学家和临床医生的偏好差异显著。尽管LLM在不同任务中的效用不同,但研究证实了开源LLM在有限但临床相关的场景中辅助日语病理报告写作的潜力。

🎯 应用场景

该研究成果可应用于开发辅助病理报告写作的智能工具,提高病理报告的效率和准确性。通过集成表现优异的开源LLM,可以减轻病理医生的工作负担,并为临床医生提供更清晰、易懂的病理报告解释。未来,该技术有望推广到其他医学报告领域,提升医疗服务的质量和效率。

📄 摘要(原文)

The performance of large language models (LLMs) for supporting pathology report writing in Japanese remains unexplored. We evaluated seven open-source LLMs from three perspectives: (A) generation and information extraction of pathology diagnosis text following predefined formats, (B) correction of typographical errors in Japanese pathology reports, and (C) subjective evaluation of model-generated explanatory text by pathologists and clinicians. Thinking models and medical-specialized models showed advantages in structured reporting tasks that required reasoning and in typo correction. In contrast, preferences for explanatory outputs varied substantially across raters. Although the utility of LLMs differed by task, our findings suggest that open-source LLMs can be useful for assisting Japanese pathology report writing in limited but clinically relevant scenarios.