HR-VILAGE-3K3M: A Human Respiratory Viral Immunization Longitudinal Gene Expression Dataset for Systems Immunity

📄 arXiv: 2505.14725v1 📥 PDF

作者: Xuejun Sun, Yiran Song, Xiaochen Zhou, Ruilie Cai, Yu Zhang, Xinyi Li, Rui Peng, Jialiu Xie, Yuanyuan Yan, Muyao Tang, Prem Lakshmanane, Baiming Zou, James S. Hagood, Raymond J. Pickles, Didong Li, Fei Zou, Xiaojing Zheng

分类: q-bio.GN, cs.LG, stat.AP

发布日期: 2025-05-19


💡 一句话要点

构建HR-VILAGE-3K3M,用于呼吸道病毒免疫纵向基因表达的AI驱动系统免疫研究。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 呼吸道病毒 免疫学 基因表达 RNA-seq 纵向数据 AI驱动 疫苗开发 系统免疫学

📋 核心要点

  1. 现有呼吸道病毒感染研究缺乏统一的纵向转录组数据,阻碍了AI驱动的免疫机制发现。
  2. 构建HR-VILAGE-3K3M数据集,整合多来源RNA-seq数据,统一元数据和预处理流程,为AI研究提供基础。
  3. 通过预测疫苗应答者和评估批次效应校正方法,验证了HR-VILAGE-3K3M的有效性,并支持多种免疫学应用。

📝 摘要(中文)

呼吸道病毒感染构成全球健康负担,但驱动保护或病理的细胞免疫反应仍不清楚。自然感染队列通常缺乏暴露前基线数据和结构化的时间采样。相比之下,接种和疫苗接种试验产生有洞察力的纵向转录组数据。然而,这些数据集在平台上的分散,以及不一致的元数据和预处理程序,阻碍了AI驱动的发现。为了应对这些挑战,我们开发了人类呼吸道病毒免疫纵向基因表达(HR-VILAGE-3K3M)存储库:一个AI就绪、经过严格管理的数据集,它整合了来自3178名受试者的14136个RNA-seq谱,涵盖66项研究,包含超过256万个细胞。该数据集跨越疫苗接种、接种和混合暴露,包括来自全血、PBMC和鼻拭子的微阵列、bulk RNA-seq和单细胞RNA-seq,来源于GEO、ImmPort和ArrayExpress。我们统一了受试者级别的元数据,标准化了结果指标,应用了具有严格质量控制的统一预处理流程,并将所有数据与官方基因符号对齐。为了展示HR-VILAGE-3K3M的效用,我们对疫苗应答者进行了预测建模,并评估了批次效应校正方法。除了这些初步演示之外,它还支持各种系统免疫学应用以及特征选择和迁移学习算法的基准测试。它的规模和异质性也使其成为人类免疫反应基础模型预训练和推进多模态学习框架的理想选择。作为人类呼吸道病毒免疫的最大纵向转录组资源,它为可重复的AI驱动研究提供了一个可访问的平台,加速了针对新兴病毒威胁的系统免疫学和疫苗开发。

🔬 方法详解

问题定义:目前呼吸道病毒免疫研究面临的主要问题是缺乏大规模、标准化的纵向基因表达数据集。现有数据集分散在不同的平台(GEO, ImmPort, ArrayExpress)上,元数据不一致,预处理流程各异,这严重阻碍了AI和机器学习方法在系统免疫学中的应用,限制了对免疫反应机制的深入理解和疫苗开发的效率。

核心思路:论文的核心思路是构建一个统一、高质量、AI就绪的纵向基因表达数据集HR-VILAGE-3K3M。通过整合来自不同来源的RNA-seq数据,统一元数据格式,采用标准化的预处理流程,并进行严格的质量控制,为研究人员提供一个可靠的数据基础,从而加速AI驱动的系统免疫学研究。

技术框架:HR-VILAGE-3K3M的构建流程主要包括以下几个阶段:1) 数据收集:从GEO、ImmPort和ArrayExpress等公共数据库收集相关的RNA-seq数据,涵盖疫苗接种、病毒感染等多种场景。2) 元数据统一:对收集到的数据进行元数据标准化,统一受试者信息、实验条件、时间点等关键信息。3) 预处理:采用统一的预处理流程,包括质量控制、序列比对、基因表达量化等步骤。4) 数据对齐:将所有数据对齐到官方基因符号,消除不同平台和批次之间的差异。5) 数据存储和发布:将处理后的数据存储在易于访问的数据库中,并提供相应的API和工具,方便研究人员使用。

关键创新:HR-VILAGE-3K3M的关键创新在于其大规模、高质量和AI就绪的特性。它是目前最大的呼吸道病毒免疫纵向转录组资源,整合了来自多个来源的数据,并进行了严格的标准化和质量控制。此外,该数据集还提供了统一的元数据和预处理流程,方便研究人员直接使用AI和机器学习方法进行分析。

关键设计:在数据预处理方面,论文采用了标准化的RNA-seq分析流程,包括使用STAR进行序列比对,使用RSEM进行基因表达量化。为了消除批次效应,论文评估了多种批次效应校正方法,并选择了效果最佳的方法应用于数据集。在数据质量控制方面,论文采用了多种指标,如reads mapping rate、gene detection rate等,对数据进行过滤和清洗。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过预测疫苗应答者和评估批次效应校正方法,验证了HR-VILAGE-3K3M数据集的有效性。实验结果表明,该数据集能够支持多种系统免疫学应用,并为特征选择和迁移学习算法提供基准测试平台。该数据集的规模和异质性使其成为人类免疫反应基础模型预训练的理想选择。

🎯 应用场景

HR-VILAGE-3K3M数据集可广泛应用于呼吸道病毒免疫相关的系统免疫学研究、疫苗开发和药物筛选。它能够支持AI驱动的免疫反应预测、生物标志物发现、疫苗有效性评估等任务,加速针对新兴病毒威胁的疫苗和疗法研发,具有重要的实际价值和未来影响。

📄 摘要(原文)

Respiratory viral infections pose a global health burden, yet the cellular immune responses driving protection or pathology remain unclear. Natural infection cohorts often lack pre-exposure baseline data and structured temporal sampling. In contrast, inoculation and vaccination trials generate insightful longitudinal transcriptomic data. However, the scattering of these datasets across platforms, along with inconsistent metadata and preprocessing procedure, hinders AI-driven discovery. To address these challenges, we developed the Human Respiratory Viral Immunization LongitudinAl Gene Expression (HR-VILAGE-3K3M) repository: an AI-ready, rigorously curated dataset that integrates 14,136 RNA-seq profiles from 3,178 subjects across 66 studies encompassing over 2.56 million cells. Spanning vaccination, inoculation, and mixed exposures, the dataset includes microarray, bulk RNA-seq, and single-cell RNA-seq from whole blood, PBMCs, and nasal swabs, sourced from GEO, ImmPort, and ArrayExpress. We harmonized subject-level metadata, standardized outcome measures, applied unified preprocessing pipelines with rigorous quality control, and aligned all data to official gene symbols. To demonstrate the utility of HR-VILAGE-3K3M, we performed predictive modeling of vaccine responders and evaluated batch-effect correction methods. Beyond these initial demonstrations, it supports diverse systems immunology applications and benchmarking of feature selection and transfer learning algorithms. Its scale and heterogeneity also make it ideal for pretraining foundation models of the human immune response and for advancing multimodal learning frameworks. As the largest longitudinal transcriptomic resource for human respiratory viral immunization, it provides an accessible platform for reproducible AI-driven research, accelerating systems immunology and vaccine development against emerging viral threats.