Multi-Objective-Guided Discrete Flow Matching for Controllable Biological Sequence Design
作者: Tong Chen, Yinuo Zhang, Sophia Tang, Pranam Chatterjee
分类: cs.LG, q-bio.BM
发布日期: 2025-05-11 (更新: 2025-05-14)
💡 一句话要点
MOG-DFM:多目标引导的离散流匹配用于可控生物序列设计
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 生物序列设计 离散流匹配 多目标优化 肽设计 DNA序列设计 帕累托最优 生物分子工程
📋 核心要点
- 生物序列设计面临多重冲突目标的挑战,现有方法难以兼顾多个功能和生物物理标准。
- MOG-DFM通过混合秩-方向分数和自适应超锥滤波,引导离散流匹配模型实现帕累托最优权衡。
- 实验表明,MOG-DFM能有效生成优化肽结合物和设计具有特定功能的DNA序列。
📝 摘要(中文)
生物序列设计旨在满足多个通常相互冲突的功能和生物物理标准,这是生物分子工程的核心挑战。离散流匹配模型最近在高效采样高维序列空间方面显示出潜力,但现有方法仅解决单一目标或需要可能扭曲离散分布的连续嵌入。我们提出了多目标引导的离散流匹配(MOG-DFM),这是一个通用框架,可引导任何预训练的离散流匹配生成器,以实现跨多个标量目标的帕累托最优权衡。在每个采样步骤中,MOG-DFM计算候选转换的混合秩-方向分数,并应用自适应超锥滤波器来强制执行一致的多目标进展。我们还训练了两个无条件离散流匹配模型,PepDFM用于多样化的肽生成,EnhancerDFM用于功能性增强子DNA生成,作为MOG-DFM的基础生成模型。我们证明了MOG-DFM在生成针对五个属性(溶血、防污、溶解度、半衰期和结合亲和力)优化的肽结合物,以及设计具有特定增强子类别和DNA形状的DNA序列方面的有效性。总而言之,MOG-DFM被证明是用于多属性引导的生物分子序列设计的强大工具。
🔬 方法详解
问题定义:生物序列设计需要同时优化多个相互冲突的属性,例如结合亲和力、溶解度和稳定性。现有方法要么只能优化单一目标,要么依赖于连续嵌入,这可能导致离散序列空间的扭曲,无法准确反映序列的真实分布。
核心思路:MOG-DFM的核心思路是利用预训练的离散流匹配模型作为基础生成器,并通过多目标引导策略,在采样过程中动态调整生成方向,以实现多个目标之间的帕累托最优权衡。这种方法避免了连续嵌入带来的失真,并能够灵活地控制生成序列的属性。
技术框架:MOG-DFM的整体框架包括以下几个主要阶段:1) 预训练离散流匹配模型(如PepDFM和EnhancerDFM)作为基础生成器;2) 定义多个标量目标函数,用于评估生成序列的属性;3) 在采样过程中,计算候选转换的混合秩-方向分数,该分数综合考虑了各个目标的优化方向和相对重要性;4) 应用自适应超锥滤波器,确保生成序列在多个目标上都朝着有利的方向发展,避免出现某个目标性能显著下降的情况。
关键创新:MOG-DFM的关键创新在于其多目标引导策略,该策略能够有效地平衡多个目标之间的冲突,并生成帕累托最优的序列。混合秩-方向分数和自适应超锥滤波器的设计,使得MOG-DFM能够灵活地控制生成序列的属性,并避免陷入局部最优解。与现有方法相比,MOG-DFM无需连续嵌入,能够更准确地反映离散序列空间的分布。
关键设计:混合秩-方向分数的计算方式是将各个目标的优化方向进行加权平均,权重由目标的相对重要性决定。自适应超锥滤波器的设计允许在一定范围内接受目标性能的轻微下降,以换取其他目标的显著提升。超锥的角度是一个关键参数,需要根据具体问题进行调整,以达到最佳的帕累托权衡。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MOG-DFM在肽结合物设计和DNA序列设计任务中均取得了显著的性能提升。在肽结合物设计任务中,MOG-DFM能够生成在溶血、防污、溶解度、半衰期和结合亲和力五个属性上均表现良好的序列。在DNA序列设计任务中,MOG-DFM能够生成具有特定增强子类别和DNA形状的序列,验证了其在多目标优化方面的有效性。
🎯 应用场景
MOG-DFM在生物分子工程领域具有广泛的应用前景,可用于设计具有特定功能的蛋白质、肽和DNA序列。例如,可以利用MOG-DFM设计具有高结合亲和力、低免疫原性和良好稳定性的治疗性抗体,或者设计具有特定催化活性和选择性的酶。该方法还可以应用于合成生物学领域,用于设计具有特定功能的基因线路和代谢通路。
📄 摘要(原文)
Designing biological sequences that satisfy multiple, often conflicting, functional and biophysical criteria remains a central challenge in biomolecule engineering. While discrete flow matching models have recently shown promise for efficient sampling in high-dimensional sequence spaces, existing approaches address only single objectives or require continuous embeddings that can distort discrete distributions. We present Multi-Objective-Guided Discrete Flow Matching (MOG-DFM), a general framework to steer any pretrained discrete flow matching generator toward Pareto-efficient trade-offs across multiple scalar objectives. At each sampling step, MOG-DFM computes a hybrid rank-directional score for candidate transitions and applies an adaptive hypercone filter to enforce consistent multi-objective progression. We also trained two unconditional discrete flow matching models, PepDFM for diverse peptide generation and EnhancerDFM for functional enhancer DNA generation, as base generation models for MOG-DFM. We demonstrate MOG-DFM's effectiveness in generating peptide binders optimized across five properties (hemolysis, non-fouling, solubility, half-life, and binding affinity), and in designing DNA sequences with specific enhancer classes and DNA shapes. In total, MOG-DFM proves to be a powerful tool for multi-property-guided biomolecule sequence design.