PhylaFlow: Hybrid Flow Matching in Billera-Holmes-Vogtmann Tree Space for Phylogenetic Inference

📄 arXiv: 2605.21859v1 📥 PDF

作者: Yasha Ektefaie, Leo Cui, Shrey Jain, Marinka Zitnik, Pardis Sabeti

分类: q-bio.PE, cs.LG, q-bio.QM

发布日期: 2026-05-21

备注: 9 pages, 3 figures


💡 一句话要点

PhylaFlow:在BHV树空间中利用混合流匹配进行系统发育推断

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 系统发育推断 BHV树空间 流匹配 贝叶斯推断 进化生物学

📋 核心要点

  1. 系统发育推断面临拓扑结构离散变化和分支长度连续变化的混合挑战,传统方法难以有效探索复杂的树空间。
  2. PhylaFlow 提出了一种混合流匹配模型,在 BHV 树空间中学习后验分布的传输,结合连续运动和离散拓扑转换。
  3. 实验表明,PhylaFlow 显著降低了初始 Tree-KL 散度,并能更有效地引导贝叶斯细化恢复后验支持的拓扑结构。

📝 摘要(中文)

系统发育树是混合对象:分支长度连续变化,而拓扑结构通过边缘收缩和扩展离散变化。Billera-Holmes-Vogtmann (BHV) 树空间为此结构提供了一个规范的几何表示,将每个已解析的拓扑结构表示为一个欧几里得正交区域,并将拓扑结构的变化表示为跨共享低维边界的运动。我们提出了 PhylaFlow,一个混合流匹配模型,用于学习 BHV 树空间中的后验盆地传输。PhylaFlow 在从随机起始树到短程后验样本的 BHV 测地路径上进行训练,将正交区域内的连续分支长度运动与学习到的边界事件和离散拓扑结构转换相结合。我们以操作方式评估学习到的几何结构:如果流到达后验相关区域,则从其终端树初始化或由其引导的有限预算贝叶斯细化应更有效地恢复后验支持的拓扑结构。在 DS1-DS8 系统发育后验基准测试中,相对于经典初始化器,PhylaFlow 显着降低了初始 Tree-KL 散度。经过有限预算的 MrBayes 细化后,直接 PhylaFlow 改进了大多数数据集上的早期和中期拓扑结构恢复轨迹,而分裂引导的 PhylaFlow-MCMC 获得了最强的硬案例结果。在相同的细化预算下,最佳 PhylaFlow 变体在八个数据集中的七个上优于短热身,在八个数据集中的五个上优于 PhyloGFN。在一个联合序列条件实验中,序列嵌入引导后验分裂恢复,尽管精确的后验拓扑结构恢复仍是初步的。这些结果表明,混合流匹配可以学习 BHV 树空间中的可操作传输,并为贝叶斯系统发育推断提供几何感知提议机制。

🔬 方法详解

问题定义:系统发育推断旨在从遗传数据重建物种的进化关系,其核心挑战在于搜索复杂的树空间。传统的马尔可夫链蒙特卡洛(MCMC)方法通常需要大量的计算资源才能收敛到后验分布,并且容易陷入局部最优。现有的方法在处理拓扑结构的离散变化和分支长度的连续变化时效率较低,难以有效探索整个树空间。

核心思路:PhylaFlow 的核心思路是利用流匹配模型学习 BHV 树空间中的后验分布传输。通过训练模型学习从随机起始树到后验样本的测地路径,PhylaFlow 能够将连续的分支长度运动与离散的拓扑结构转换相结合,从而更有效地探索树空间。这种方法旨在克服传统 MCMC 方法的局限性,并提供一种几何感知的提议机制。

技术框架:PhylaFlow 的整体框架包括以下几个主要阶段:1) 在 BHV 树空间中生成从随机起始树到短程后验样本的测地路径;2) 使用流匹配模型训练模型,学习这些测地路径上的传输;3) 利用训练好的模型生成新的树,作为贝叶斯细化的初始点;4) 使用 MrBayes 等工具进行有限预算的贝叶斯细化,以恢复后验支持的拓扑结构。该框架还包括一个分裂引导的 MCMC 变体,利用 PhylaFlow 学习到的信息来指导 MCMC 的提议。

关键创新:PhylaFlow 的最重要创新在于其混合流匹配方法,它能够同时处理 BHV 树空间中的连续和离散变化。与传统的基于 MCMC 的方法相比,PhylaFlow 能够更有效地学习后验分布的几何结构,并提供一种几何感知的提议机制。此外,PhylaFlow 还引入了分裂引导的 MCMC 变体,进一步提高了拓扑结构恢复的效率。

关键设计:PhylaFlow 的关键设计包括:1) 使用 BHV 树空间作为系统发育树的几何表示;2) 使用流匹配模型学习 BHV 树空间中的后验分布传输;3) 设计混合损失函数,将连续分支长度运动和离散拓扑结构转换相结合;4) 引入分裂引导的 MCMC 变体,利用 PhylaFlow 学习到的信息来指导 MCMC 的提议。具体的网络结构和参数设置在论文中没有详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PhylaFlow 在 DS1-DS8 系统发育后验基准测试中,相对于经典初始化器,显着降低了初始 Tree-KL 散度。经过有限预算的 MrBayes 细化后,直接 PhylaFlow 改进了大多数数据集上的早期和中期拓扑结构恢复轨迹,而分裂引导的 PhylaFlow-MCMC 获得了最强的硬案例结果。最佳 PhylaFlow 变体在八个数据集中的七个上优于短热身,在八个数据集中的五个上优于 PhyloGFN。

🎯 应用场景

PhylaFlow 的潜在应用领域包括生物信息学、进化生物学和基因组学。该方法可以用于更准确地重建物种的进化关系,从而帮助科学家更好地理解生物多样性和进化过程。此外,PhylaFlow 还可以应用于药物发现、疾病传播建模等领域,具有重要的实际价值和未来影响。

📄 摘要(原文)

Phylogenetic trees are hybrid objects: branch lengths vary continuously, while topologies change discretely through edge contractions and expansions. Billera-Holmes-Vogtmann (BHV) tree space provides a canonical geometry for this structure, representing each resolved topology as a Euclidean orthant and topological changes as motion across shared lower-dimensional boundaries. We introduce PhylaFlow, a hybrid flow-matching model that learns posterior-basin transport in BHV tree space. PhylaFlow is trained on BHV geodesic paths from random starting trees to short-run posterior samples, coupling continuous branch-length motion within orthants with learned boundary events and discrete topology transitions. We evaluate the learned geometry operationally: if the flow reaches posterior-relevant regions, finite-budget Bayesian refinement initialized from, or guided by, its terminal trees should recover posterior-supported topologies more efficiently. Across DS1-DS8 phylogenetic posterior benchmarks, PhylaFlow substantially reduces initial Tree-KL relative to classical initializers. After finite-budget MrBayes refinement, direct PhylaFlow improves early and intermediate topology-recovery trajectories on most datasets, while split-guided PhylaFlow-MCMC obtains the strongest hard-case results. The best PhylaFlow variant outperforms short-warmup on seven of eight datasets and PhyloGFN on five of eight under the same refinement budget. In a joint sequence-conditioned experiment, sequence embeddings steer posterior split recovery, although exact posterior topology recovery remains preliminary. These results show that hybrid flow matching can learn actionable transport in BHV tree space and provide a geometry-aware proposal mechanism for Bayesian phylogenetic inference.