Escaping Local Optima in the Waddington Landscape: A Two-Stage TRPO-PPO Approach for Single-Cell Perturbation Analysis

作者: Francis Boabang, Samuel Asante Gyamerah

分类: cs.LG, q-bio.QM

发布日期: 2025-10-14 (更新: 2026-01-23)

备注: 17 pages, 6 figures, 8 tables

💡 一句话要点

提出一种两阶段TRPO-PPO算法，用于单细胞扰动分析中逃离Waddington景观局部最优。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 单细胞扰动分析 强化学习 TRPO PPO Waddington景观 数字孪生 策略优化

📋 核心要点

现有单细胞扰动模型泛化性不足，主要原因是它们难以整合模拟和实验数据，且易陷入Waddington景观的局部最优。
论文提出一种两阶段强化学习算法，先用TRPO进行曲率感知的初始化，再用PPO进行策略优化，从而避免局部最优。
实验结果表明，该方法显著提高了数字孪生系统中单细胞RNA测序扰动分析的泛化能力，验证了算法的有效性。

📝 摘要（中文）

对遗传和化学扰动建模细胞反应是单细胞生物学的核心挑战。现有的数据驱动框架通过变分自编码器、化学条件自编码器和大规模Transformer预训练推动了扰动预测。然而，大多数现有模型仅依赖于计算机模拟扰动数据或实验扰动数据，很少整合两者，限制了它们在数字孪生系统中跨模拟和真实生物环境推广和验证预测的能力。此外，这些模型容易陷入细胞命运决定的非凸Waddington景观中的局部最优，不良初始化会将轨迹困在虚假谱系中。本文提出了一种两阶段强化学习算法来建模单细胞扰动。首先，使用Fisher向量积和共轭梯度求解器计算显式自然梯度更新，并用KL信任区域约束进行缩放，为策略提供安全的、曲率感知的第一步。从这些预处理的参数开始，然后应用具有KL惩罚的近端策略优化（PPO）的第二阶段，利用小批量效率来优化策略。实验表明，这种初始化策略显著提高了数字孪生系统中单细胞RNA测序（scRNA-seq）扰动分析的泛化能力。

🔬 方法详解

问题定义：论文旨在解决单细胞扰动分析中，现有模型难以有效整合模拟和实验数据，并且容易陷入Waddington景观局部最优的问题。这些局部最优会导致模型预测的细胞命运轨迹不准确，泛化能力差，无法在数字孪生系统中可靠地模拟真实的生物过程。现有方法的痛点在于对Waddington景观的复杂性建模不足，以及缺乏有效的探索机制。

核心思路：论文的核心思路是利用两阶段强化学习算法，首先通过TRPO（Trust Region Policy Optimization）进行策略的初始化，利用其曲率感知的特性，帮助策略跳出局部最优区域。然后，使用PPO（Proximal Policy Optimization）进行策略的精细优化，利用其小批量处理的效率，进一步提升策略的性能。这种两阶段策略旨在结合TRPO的全局探索能力和PPO的局部优化能力，从而更有效地探索Waddington景观。

技术框架：整体框架包含两个主要阶段：1) TRPO初始化阶段：使用Fisher向量积和共轭梯度求解器计算自然梯度更新，并采用KL散度约束来保证更新的安全性。这一阶段旨在提供一个良好的策略初始点，避免陷入局部最优。2) PPO优化阶段：在TRPO初始化得到的策略基础上，使用PPO算法进行进一步的优化。PPO算法采用KL惩罚项来约束策略的更新幅度，并利用小批量数据进行高效的训练。

关键创新：论文的关键创新在于将TRPO和PPO结合起来，形成一个两阶段的强化学习框架。TRPO的曲率感知特性能够帮助策略跳出局部最优，而PPO的小批量优化能力能够提高训练效率。这种结合克服了传统方法在复杂Waddington景观中容易陷入局部最优的缺点。

关键设计：TRPO阶段的关键设计在于使用Fisher向量积和共轭梯度求解器来计算自然梯度，并使用KL散度作为信任区域约束。PPO阶段的关键设计在于使用KL惩罚项来约束策略的更新幅度，并采用小批量数据进行训练。具体的参数设置和网络结构在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了所提出的两阶段TRPO-PPO算法在单细胞RNA测序扰动分析中的有效性。实验结果表明，该方法能够显著提高模型的泛化能力，在数字孪生系统中更准确地预测细胞对扰动的反应。具体的性能数据和提升幅度在论文中未详细说明，属于未知信息。

🎯 应用场景

该研究成果可应用于单细胞生物学领域，用于更准确地预测细胞对各种扰动的反应，例如基因编辑、药物处理等。这有助于加速药物研发、疾病建模和个性化治疗等方面的研究，具有重要的实际价值和潜在的未来影响。通过构建更精确的数字孪生系统，可以更好地理解细胞命运决定和调控机制。

📄 摘要（原文）

Modeling cellular responses to genetic and chemical perturbations remains a central challenge in single-cell biology. Existing data-driven frameworks have advanced perturbation prediction through variational autoencoders, chemically conditioned autoencoders, and large-scale transformer pretraining. However, most existing models rely exclusively on either in silico perturbation data or experimental perturbation data but rarely integrate both, limiting their ability to generalize and validate predictions across simulated and real biological contexts in a digital twin system. Moreover, the models are prone to local optima in the nonconvex Waddington landscape of cell fate decisions, where poor initialization can trap trajectories in spurious lineages. In this work, we introduce a two-stage reinforcement learning algorithm for modeling single-cell perturbation. We first compute an explicit natural gradient update using Fisher-vector products and a conjugate gradient solver, scaled by a KL trust-region constraint to provide a safe, curvature-aware first step for the policy. Starting with these preconditioned parameters, we then apply a second phase of proximal policy optimization (PPO) with a KL penalty, exploiting minibatch efficiency to refine the policy. We demonstrate that this initialization strategy substantially improves generalization on Single-cell RNA sequencing (scRNA-seq) perturbation analysis in a digital twin system.

Escaping Local Optima in the Waddington Landscape: A Two-Stage TRPO-PPO Approach for Single-Cell Perturbation Analysis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理