AROMA: Augmented Reasoning Over a Multimodal Architecture for Virtual Cell Genetic Perturbation Modeling

作者: Zhenyu Wang, Geyan Ye, Wei Liu, Man Tat Alexander Ng

分类: q-bio.QM, cs.AI, cs.LG

发布日期: 2026-04-22

备注: Accepted to ACL 2026 as a Findings paper. Zhenyu Wang and Geyan Ye are equal contributors; Geyan Ye is the corresponding author and project lead

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

AROMA：用于虚拟细胞遗传扰动建模的增强推理多模态架构

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 虚拟细胞建模 遗传扰动 多模态融合 知识图谱 因果推理

📋 核心要点

现有虚拟细胞建模方法在推理约束、可解释性和检索信号对齐方面存在不足，限制了其在生物机制研究中的应用。
AROMA通过整合文本、图拓扑和蛋白质序列等多模态信息，并采用两阶段优化策略，提升预测的准确性和可解释性。
实验结果表明，AROMA在多个细胞系上超越现有方法，并在零样本和知识稀疏场景下表现出良好的鲁棒性。

📝 摘要（中文）

虚拟细胞建模能够在计算机中预测遗传扰动下的分子状态变化，这对于生物机制研究至关重要。然而，现有方法存在推理约束不足、预测缺乏可解释性以及检索信号与调控拓扑结构弱对齐等问题。为了解决这些局限性，我们提出了AROMA，一种用于虚拟细胞遗传扰动建模的增强推理多模态架构。AROMA集成了文本证据、图拓扑信息和蛋白质序列特征，以建模扰动-靶标依赖关系，并通过两阶段优化策略进行训练，从而产生准确且可解释的预测。我们还构建了两个知识图谱和一个扰动推理数据集PerturbReason，包含超过49.8万个样本，作为虚拟细胞领域的可重用资源。实验表明，AROMA在多个细胞系上优于现有方法，并且在未见细胞系上的零样本评估以及知识稀疏的长尾场景中保持稳健性。总而言之，AROMA表明，将知识驱动的多模态建模与证据检索相结合，为更可靠和可解释的虚拟细胞扰动预测提供了一条有希望的途径。

🔬 方法详解

问题定义：现有虚拟细胞建模方法在预测遗传扰动后的分子状态变化时，面临着推理过程缺乏约束、预测结果难以解释以及检索到的信息与真实的调控关系不匹配等问题。这些问题导致模型无法准确捕捉生物系统的复杂性，限制了其在药物发现和生物机制研究中的应用。

核心思路：AROMA的核心思路是利用多模态信息融合和知识图谱增强推理能力。通过整合文本证据、基因调控网络拓扑结构和蛋白质序列特征，模型能够更全面地理解扰动与靶标之间的依赖关系。两阶段优化策略则旨在提高预测的准确性和可解释性。

技术框架：AROMA的整体架构包含以下几个主要模块：1) 多模态信息编码器：用于提取文本、图和序列特征；2) 知识图谱：包含基因调控关系和生物实体信息；3) 扰动推理模块：基于编码后的特征和知识图谱进行推理，预测分子状态变化；4) 两阶段优化模块：首先进行预训练，然后进行微调，以提高预测准确性和可解释性。

关键创新：AROMA的关键创新在于其多模态信息融合和知识图谱增强推理机制。与传统方法相比，AROMA能够更有效地利用多种数据源，并结合先验知识进行推理，从而提高预测的准确性和可解释性。此外，PerturbReason数据集的构建也为该领域的研究提供了宝贵的资源。

关键设计：AROMA的关键设计包括：1) 使用Transformer模型编码文本和序列信息；2) 使用图神经网络（GNN）编码基因调控网络拓扑结构；3) 设计特定的损失函数，鼓励模型学习可解释的扰动-靶标依赖关系；4) 两阶段优化策略，先通过大规模数据进行预训练，再通过特定任务数据进行微调。

🖼️ 关键图片

📊 实验亮点

AROMA在多个细胞系上取得了显著的性能提升，优于现有方法。在零样本评估中，AROMA在未见过的细胞系上表现出良好的泛化能力。此外，AROMA在知识稀疏的长尾场景中也表现出较强的鲁棒性，表明其具有很强的实用价值。模型权重和代码已开源。

🎯 应用场景

AROMA在药物发现、疾病建模和生物机制研究等领域具有广泛的应用前景。它可以用于预测药物靶点、评估药物疗效、理解疾病发生机制以及设计更有效的治疗方案。通过虚拟细胞建模，研究人员可以减少湿实验的成本和时间，加速新药研发进程。

📄 摘要（原文）

Virtual cell modeling predicts molecular state changes under genetic perturbations in silico, which is essential for biological mechanism studies. However, existing approaches suffer from unconstrained reasoning, uninterpretable predictions, and retrieval signals that are weakly aligned with regulatory topology. To address these limitations, we propose AROMA, an Augmented Reasoning Over a Multimodal Architecture for virtual cell genetic perturbation modeling. AROMA integrates textual evidence, graph-topology information, and protein sequence features to model perturbation-target dependencies, and is trained with a two-stage optimization strategy to yield predictions that are both accurate and interpretable. We also construct two knowledge graphs and a perturbation reasoning dataset, PerturbReason, containing more than 498k samples, as reusable resources for the virtual cell domain. Experiments show that AROMA outperforms existing methods across multiple cell lines, and remains robust under zero-shot evaluation on an unseen cell line, as well as in knowledge-sparse, long-tail scenarios. Overall, AROMA demonstrates that combining knowledge-driven multimodal modeling with evidence retrieval provides a promising pathway toward more reliable and interpretable virtual cell perturbation prediction. Model weights are available at https://huggingface.co/blazerye/AROMA. Code is available at https://github.com/blazerye/AROMA.

AROMA: Augmented Reasoning Over a Multimodal Architecture for Virtual Cell Genetic Perturbation Modeling

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理