HiCMamba: Enhancing Hi-C Resolution and Identifying 3D Genome Structures with State Space Modeling

📄 arXiv: 2503.10713v1 📥 PDF

作者: Minghao Yang, Zhi-An Huang, Zhihang Zheng, Yuqiao Liu, Shichen Zhang, Pengfei Zhang, Hui Xiong, Shaojun Tang

分类: cs.CV, cs.AI

发布日期: 2025-03-13


💡 一句话要点

HiCMamba:利用状态空间模型提升Hi-C分辨率并识别3D基因组结构

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: Hi-C数据增强 3D基因组结构 状态空间模型 深度学习 染色质互作

📋 核心要点

  1. Hi-C数据受限于测序成本和技术挑战,导致数据覆盖率不足,影响染色质互作频率的准确估计。
  2. HiCMamba利用状态空间模型,结合UNet自编码器架构和整体扫描块,实现多尺度全局和局部感受野的感知。
  3. 实验表明,HiCMamba在提升Hi-C分辨率方面优于现有方法,同时显著降低了计算资源需求,并验证了识别出的3D基因组结构。

📝 摘要(中文)

Hi-C技术用于测量全基因组范围内的互作频率,是研究细胞核内3D基因组结构的强大工具。然而,高昂的测序成本和技术挑战通常导致Hi-C数据覆盖率有限,从而导致染色质互作频率的估计不准确。为了解决这个问题,我们提出了一种新的基于深度学习的方法HiCMamba,该方法使用状态空间模型来提高Hi-C接触图的分辨率。我们采用基于UNet的自编码器架构来堆叠所提出的整体扫描块,从而能够感知多个尺度的全局和局部感受野。实验结果表明,HiCMamba优于最先进的方法,同时显著减少了计算资源。此外,通过HiCMamba恢复的接触图中识别出的3D基因组结构,包括拓扑关联域(TAD)和环,通过相关的表观基因组特征得到验证。我们的工作证明了状态空间模型作为Hi-C分辨率增强领域的基础框架的潜力。

🔬 方法详解

问题定义:Hi-C技术是研究3D基因组结构的重要手段,但其数据质量受限于测序深度和成本,导致低分辨率的Hi-C接触图难以准确反映染色质互作信息。现有方法在提升分辨率时,往往计算资源消耗大,且效果提升有限。因此,该论文旨在解决低覆盖率Hi-C数据分辨率提升的问题,从而更准确地识别3D基因组结构。

核心思路:论文的核心思路是利用状态空间模型(SSM)的强大序列建模能力,捕捉Hi-C接触图中的长程依赖关系,并结合UNet的局部特征提取能力,实现全局和局部信息的有效融合。通过这种方式,模型能够更好地推断缺失的互作信息,从而提升Hi-C接触图的分辨率。

技术框架:HiCMamba采用基于UNet的自编码器架构。编码器部分负责提取输入Hi-C接触图的多尺度特征,解码器部分则利用提取的特征重建高分辨率的Hi-C接触图。关键模块是“整体扫描块”(Holistic Scan Block),该模块基于状态空间模型,用于捕捉长程依赖关系。整个框架通过端到端的方式进行训练。

关键创新:该论文的关键创新在于将状态空间模型引入Hi-C分辨率提升任务中。与传统的卷积神经网络(CNN)相比,状态空间模型能够更好地捕捉长程依赖关系,从而更有效地利用全局信息。此外,论文提出的整体扫描块能够同时感知全局和局部感受野,进一步提升了模型的性能。这是首次将状态空间模型应用于Hi-C数据增强。

关键设计:HiCMamba使用UNet作为主干网络,并用提出的整体扫描块替换了部分卷积层。整体扫描块的具体实现细节未知,但可以推测其内部包含了状态转移矩阵、观测矩阵等参数,这些参数通过训练进行优化。损失函数可能包括均方误差(MSE)或结构相似性(SSIM)等,用于衡量重建的Hi-C接触图与真实高分辨率Hi-C接触图之间的差异。具体的训练参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,HiCMamba在Hi-C分辨率提升任务中优于现有最先进的方法,并且显著降低了计算资源消耗。具体性能指标未知,但摘要中强调了其在计算效率上的优势。通过HiCMamba恢复的接触图中识别出的TAD和环等结构,通过相关的表观基因组特征得到了验证,表明该方法能够准确地恢复生物学意义。

🎯 应用场景

HiCMamba的应用前景广阔,可用于提升各种生物样本的Hi-C数据质量,尤其是在测序成本受限的情况下。高分辨率的Hi-C数据能够帮助研究者更准确地识别TAD、染色质环等3D基因组结构,从而深入理解基因表达调控、细胞分化等生物学过程。该方法还可应用于药物研发、疾病诊断等领域,例如,通过分析肿瘤细胞的3D基因组结构变化,寻找潜在的治疗靶点。

📄 摘要(原文)

Hi-C technology measures genome-wide interaction frequencies, providing a powerful tool for studying the 3D genomic structure within the nucleus. However, high sequencing costs and technical challenges often result in Hi-C data with limited coverage, leading to imprecise estimates of chromatin interaction frequencies. To address this issue, we present a novel deep learning-based method HiCMamba to enhance the resolution of Hi-C contact maps using a state space model. We adopt the UNet-based auto-encoder architecture to stack the proposed holistic scan block, enabling the perception of both global and local receptive fields at multiple scales. Experimental results demonstrate that HiCMamba outperforms state-of-the-art methods while significantly reducing computational resources. Furthermore, the 3D genome structures, including topologically associating domains (TADs) and loops, identified in the contact maps recovered by HiCMamba are validated through associated epigenomic features. Our work demonstrates the potential of a state space model as foundational frameworks in the field of Hi-C resolution enhancement.