A Nationwide Japanese Medical Claims Foundation Model: Balancing Model Scaling and Task-Specific Computational Efficiency

📄 arXiv: 2604.22348v1 📥 PDF

作者: Nanae Aratake, Taisei Tosaki, Yuji Okamoto, Eiichiro Uchino, Masaki Nakamura, Nobutomo Matsui, Akiko Hatakama, Yasushi Okuno

分类: cs.LG

发布日期: 2026-04-24

备注: 14 pages, 5 figures, 3 tables


💡 一句话要点

构建日本全国医疗理赔数据Foundation Model,平衡模型规模与任务效率

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医疗理赔数据 Foundation Model Transformer 模型规模 临床风险预测

📋 核心要点

  1. 现有临床风险预测方法依赖人工特征工程,缺乏利用大规模无标签医疗数据的能力,且模型规模与下游任务性能关系不明。
  2. 本研究通过预训练不同规模的Transformer模型,探索模型规模与下游任务性能之间的关系,旨在找到最佳的模型规模。
  3. 实验结果表明,最佳模型规模取决于下游任务的特性,并在疾病预测和药物预测任务上均优于LightGBM基线模型。

📝 摘要(中文)

本研究旨在利用大规模无标签医疗记录,通过自监督Foundation Model进行临床风险预测,从而支持个体化医疗。尽管自然语言处理领域表明,更大的模型通常能实现更低的预训练损失,但在结构化医疗数据中,模型规模的增加是否始终能提升下游预测性能尚不明确。本研究使用来自日本全国519家医院理赔数据库的随机样本(230万患者,32家医院),预训练了五种规模(220万-1.01亿参数)的encoder-only Transformer,用于疾病发生率和药物预测。结果表明,下游性能在任务相关的阈值处饱和:疾病预测受益于更大的模型(3200万-1.01亿),而药物预测在1100万参数时饱和,预训练时间减少了178小时。在所有任务中,最佳模型始终优于Light Gradient Boosting Machine基线。研究表明,与单调递减的预训练损失不同,最佳模型大小因任务特性而异,为结构化医疗Foundation Model中平衡预测性能和计算成本提供了实践指导。

🔬 方法详解

问题定义:该论文旨在解决利用大规模医疗理赔数据进行有效临床风险预测的问题。现有方法,如传统的机器学习模型,通常需要人工特征工程,难以充分利用海量无标签的医疗数据。此外,对于结构化医疗数据,模型规模与下游任务性能之间的关系尚不明确,缺乏指导模型选择的依据。

核心思路:论文的核心思路是探索不同规模的Transformer模型在结构化医疗数据上的表现,并找到在预测性能和计算成本之间取得平衡的最佳模型规模。通过预训练不同大小的模型,并评估其在不同下游任务上的性能,从而揭示模型规模与任务特性之间的关系。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据准备:从日本全国医疗理赔数据库中抽取数据,构建预训练和下游任务数据集。2) 模型预训练:使用encoder-only Transformer架构,预训练五种不同规模的模型(2.2M-101M参数)。3) 下游任务评估:在疾病发生率预测和药物预测两个下游任务上评估预训练模型的性能。4) 基线模型比较:将预训练模型的性能与Light Gradient Boosting Machine (LightGBM) 基线模型进行比较。

关键创新:该研究的关键创新在于揭示了结构化医疗数据中,模型规模与下游任务性能之间的非单调关系。与自然语言处理领域不同,在医疗理赔数据上,并非模型越大越好,而是存在一个任务相关的饱和点。这一发现为实际应用中选择合适的模型规模提供了重要的指导。

关键设计:在模型设计方面,采用了encoder-only Transformer架构,并探索了五种不同的模型规模。在预训练阶段,使用了疾病发生率和药物预测作为预训练任务。在下游任务评估中,使用了Area Under the Precision-Recall Curve (AUPRC) 作为评估指标。此外,研究还详细记录了不同模型规模的预训练时间,为计算成本的考量提供了依据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在疾病预测任务中,较大的模型(32M-101M参数)表现更优,而在药物预测任务中,11M参数的模型即可达到饱和。最佳模型在所有任务中均优于LightGBM基线模型,证明了预训练模型的有效性。此外,研究还发现,在药物预测任务中,使用11M参数的模型可以比101M参数的模型节省178小时的预训练时间。

🎯 应用场景

该研究成果可应用于构建更高效、更精准的医疗风险预测模型,辅助医生进行临床决策,优化患者治疗方案,并降低医疗成本。通过选择合适的模型规模,可以在保证预测性能的同时,降低计算资源消耗,促进医疗AI的普及应用。未来,该方法可推广至其他结构化医疗数据,如电子病历等。

📄 摘要(原文)

Clinical risk prediction using longitudinal medical data supports individualized care. Self-supervised foundation models have emerged as a promising approach for leveraging large-scale unlabeled healthcare records. In natural language processing, scaling laws suggest that larger models achieve predictably lower pretraining losses, supporting the foundation model paradigm. However, for structured medical data, characterized by a limited vocabulary and sparse observations, whether increasing model size consistently improves downstream predictions is unclear, as most studies evaluate only a single model scale. In this study, we evaluated the relationship between model scale and downstream task performance for structured medical foundation models. Using a random sample (2.3 million patients, 32 hospitals) from a nationwide 519-hospital Japanese claims database, we pretrained encoder-only Transformers at five scales (2.2M-101M parameters) for disease incidence and medication prediction. Downstream performance saturated at task-dependent thresholds: disease prediction benefited from larger models (32M-101M), whereas medication prediction saturated at 11M, reducing pretraining time by 178 h. Across all tasks, the best-performing model consistently outperformed a Light Gradient Boosting Machine baseline in the area under the precision-recall curve. These findings indicate that, unlike the monotonically decreasing pretraining loss, the optimal model size varied depending on task characteristics. This task-dependent saturation provides practical guidance for balancing predictive performance and computational cost in structured medical foundation models.