Classification of autoimmune diseases from Peripheral blood TCR repertoires by multimodal multi-instance learning

作者: Ruihao Zhang, Mao chen, Fei Ye, Dandan Meng, Yixuan Huang, Xiao Liu

分类: cs.LG, cs.AI, q-bio.GN

发布日期: 2025-07-07 (更新: 2025-11-22)

备注: 4 figures, 3 tabels, 8 pages

💡 一句话要点

EAMil：一种基于多模态多示例学习的TCR序列自身免疫疾病分类方法

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: TCR序列 自身免疫疾病 多示例学习 深度学习 门控注意力机制

📋 核心要点

现有TCR序列分析方法在自身免疫疾病诊断中面临序列稀疏性和低检出率的挑战，限制了临床应用。
EAMil通过多示例学习框架，整合PrimeSeq特征提取、ESMonehot编码和门控注意力机制，提升诊断准确率。
实验结果表明，EAMil在SLE和RA诊断中取得了优异的AUC，并能有效识别疾病相关基因和区分疾病特异性TCR基因。

📝 摘要（中文）

T细胞受体(TCR)序列蕴含自身免疫疾病的关键免疫特征，但其临床应用受限于序列稀疏性和低检出率。我们开发了一种多示例深度学习框架EAMil，利用TCR测序数据以极高的准确率诊断系统性红斑狼疮(SLE)和类风湿性关节炎(RA)。通过整合PrimeSeq特征提取、ESMonehot编码和增强的门控注意力机制，我们的模型实现了最先进的性能，SLE的AUC为98.95%，RA的AUC为97.76%。EAMil成功识别出与疾病相关的基因，与已建立的差异分析结果具有超过90%的一致性，并有效区分了疾病特异性TCR基因。该模型在对多种疾病类别进行分类时表现出鲁棒性，利用SLEDAI评分对SLE患者按疾病严重程度进行分层，并诊断SLE患者的损伤部位，有效控制了年龄和性别等混杂因素。这种可解释的免疫受体分析框架为自身免疫疾病的检测和分类提供了新的见解，并在免疫介导的疾病中具有广泛的潜在临床应用。

🔬 方法详解

问题定义：现有方法在利用TCR序列进行自身免疫疾病诊断时，面临TCR序列数据固有的稀疏性和低检出率问题。这导致传统方法难以准确捕捉疾病相关的免疫特征，限制了其在临床上的应用价值。此外，如何有效整合不同来源的TCR序列信息，并从中提取出具有判别性的特征也是一个挑战。

核心思路：EAMil的核心思路是利用多示例学习框架，将每个患者的TCR序列集合视为一个“包”，每个TCR序列视为一个“示例”。模型学习区分不同疾病类型的“包”，而不是单独的“示例”，从而克服序列稀疏性问题。同时，通过整合PrimeSeq特征提取和ESMonehot编码，将TCR序列转化为更具表达力的特征向量。增强的门控注意力机制则用于选择性地关注与疾病相关的TCR序列，提高模型的判别能力。

技术框架：EAMil的整体框架包括以下几个主要模块：1) 数据预处理：对TCR序列数据进行清洗和过滤。2) 特征提取：使用PrimeSeq特征提取方法提取TCR序列的物理化学性质特征，并使用ESMonehot编码将TCR序列转化为one-hot向量。3) 多示例学习：将每个患者的TCR序列集合作为一个包输入到模型中。4) 门控注意力机制：利用增强的门控注意力机制，对每个TCR序列赋予不同的权重，选择性地关注与疾病相关的序列。5) 分类器：使用全连接层和softmax函数进行疾病分类。

关键创新：EAMil的关键创新在于以下几个方面：1) 多示例学习框架：有效解决了TCR序列的稀疏性问题。2) PrimeSeq特征提取和ESMonehot编码：将TCR序列转化为更具表达力的特征向量。3) 增强的门控注意力机制：能够选择性地关注与疾病相关的TCR序列，提高模型的判别能力。与现有方法相比，EAMil能够更准确地识别疾病相关的免疫特征，并提高疾病诊断的准确率。

关键设计：模型使用了Adam优化器进行训练，学习率为0.001。损失函数为交叉熵损失函数。门控注意力机制的具体实现包括一个门控单元和一个注意力机制。门控单元用于控制每个TCR序列的权重，注意力机制用于计算每个TCR序列与其他序列之间的相关性。模型的训练过程包括前向传播、计算损失和反向传播三个步骤。

🖼️ 关键图片

📊 实验亮点

EAMil在系统性红斑狼疮(SLE)和类风湿性关节炎(RA)的诊断中取得了显著的性能提升，SLE的AUC达到98.95%，RA的AUC达到97.76%。该模型能够以超过90%的一致性识别疾病相关基因，并有效区分疾病特异性TCR基因。此外，EAMil还能够利用SLEDAI评分对SLE患者进行疾病严重程度分层，并诊断SLE患者的损伤部位。

🎯 应用场景

EAMil具有广泛的潜在应用场景，包括自身免疫疾病的早期诊断、疾病分型、疗效预测和个性化治疗方案制定。该模型还可以用于药物研发，例如筛选针对特定疾病的TCR靶点。此外，EAMil的框架可以扩展到其他免疫介导的疾病，例如感染性疾病和肿瘤。

📄 摘要（原文）

T cell receptor (TCR) repertoires encode critical immunological signatures for autoimmune diseases, yet their clinical application remains limited by sequence sparsity and low witness rates. We developed EAMil, a multi-instance deep learning framework that leverages TCR sequencing data to diagnose systemic lupus erythematosus (SLE) and rheumatoid arthritis (RA) with exceptional accuracy. By integrating PrimeSeq feature extraction with ESMonehot encoding and enhanced gate attention mechanisms, our model achieved state-of-the-art performance with AUCs of 98.95% for SLE and 97.76% for RA. EAMil successfully identified disease-associated genes with over 90% concordance with established differential analyses and effectively distinguished disease-specific TCR genes. The model demonstrated robustness in classifying multiple disease categories, utilizing the SLEDAI score to stratify SLE patients by disease severity as well as to diagnose the site of damage in SLE patients, and effectively controlling for confounding factors such as age and gender. This interpretable framework for immune receptor analysis provides new insights for autoimmune disease detection and classification with broad potential clinical applications across immune-mediated conditions.

Classification of autoimmune diseases from Peripheral blood TCR repertoires by multimodal multi-instance learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理