PathAR: Structure-First Autoregressive Synthesis of Multimodal Pathology Images

作者: Yuan Zhang, Jiahao Xia, Junzhang Huang, Meng Wang, Feng Chen, Guanyu Yang, Huazhu Fu

分类: cs.CV

发布日期: 2026-06-01

备注: 12 pages, 7 figures

💡 一句话要点

PathAR：一种结构优先的自回归模型，用于合成多模态病理图像

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态图像生成 病理图像分析 自回归模型 向量量化 结构化生成

📋 核心要点

现有方法在同质token流中建模结构和外观，导致结构与外观耦合，结构可控性弱。
PathAR显式分解结构和外观，利用双向量量化tokenizer和交错自回归transformer实现模态条件下的病理图像生成。
实验表明PathAR在结构一致性、模态保真度上优于基线，并支持下游分割任务，具有良好的扩展性。

📝 摘要（中文）

多模态病理学中数据稀缺促使人们开发统一的生成模型，该模型在保留解剖结构一致性的同时，合成特定模态的外观。尽管不同模态在外观统计上存在差异，但细胞拓扑和组织边界等形态结构在不同的采集协议中很大程度上得以保留。然而，现有方法通常在同质的token流中对这些因素进行建模，隐式地将结构与外观耦合，削弱了模态转换下的结构可控性。为了解决这个问题，我们提出了病理自回归建模（PathAR），这是一种结构优先的自回归合成框架，它显式地分解结构和外观，用于模态标签条件下的病理生成。PathAR采用双向量量化（Dual-VQ）tokenizer将样本分解为基于掩码的结构和外观token，以及具有非对称注意力可见性的交错自回归（IAR）transformer，以强制执行结构到外观的依赖关系。PathAR稳定了异构模态特定外观下的形态，并实现了空间对齐的图像-掩码对生成。大量实验表明，PathAR在结构一致性和模态保真度方面优于基线方法，保持了样本多样性，支持数据稀缺情况下的下游分割，并展示了对更细粒度的模态内器官标签变化的扩展性。

🔬 方法详解

问题定义：多模态病理图像生成任务旨在生成具有特定模态外观，同时保持解剖结构一致性的图像。现有方法的痛点在于，它们通常将结构和外观信息耦合在一起，导致在模态转换时难以控制生成图像的结构，并且容易受到模态特定外观的影响，导致结构失真。

核心思路：PathAR的核心思路是将结构和外观信息显式地解耦，并采用结构优先的生成方式。首先生成结构信息，然后根据结构信息和模态标签生成对应的外观信息。这样可以保证生成图像的结构一致性，并提高对模态转换的鲁棒性。

技术框架：PathAR的整体架构包含以下几个主要模块：1) Dual-VQ Tokenizer：将输入图像分解为结构token和外观token。结构token主要包含细胞拓扑和组织边界等信息，外观token则包含模态特定的外观统计信息。2) Interleaved Autoregressive (IAR) Transformer：一个自回归模型，用于生成结构和外观token。该Transformer采用非对称注意力机制，强制结构到外观的依赖关系。3) Image Decoder：将生成的结构和外观token解码为最终的图像。

关键创新：PathAR最重要的技术创新点在于结构优先的生成方式和Dual-VQ Tokenizer。结构优先的生成方式保证了生成图像的结构一致性，Dual-VQ Tokenizer实现了结构和外观信息的显式解耦，使得模型可以更好地控制生成图像的结构和外观。

关键设计：Dual-VQ Tokenizer使用两个独立的向量量化器分别对结构和外观信息进行编码。IAR Transformer采用非对称注意力机制，使得外观token只能关注结构token，而结构token可以关注所有token。损失函数包括重构损失和对抗损失，用于提高生成图像的质量和真实感。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PathAR在结构一致性和模态保真度方面显著优于基线方法。例如，在下游分割任务中，使用PathAR生成的数据进行训练可以显著提高分割精度。此外，PathAR还展示了对更细粒度的模态内器官标签变化的扩展性，表明其具有良好的泛化能力。

🎯 应用场景

PathAR在医学图像分析领域具有广泛的应用前景。它可以用于生成各种模态的病理图像，从而缓解数据稀缺问题，促进病理图像分析算法的开发和应用。此外，PathAR还可以用于数据增强，提高现有算法的性能。该研究对于推动病理诊断的自动化和智能化具有重要意义。

📄 摘要（原文）

Data scarcity in multimodal pathology motivates unified generative models that synthesize modality-specific appearance while preserving anatomically coherent structure. Although modalities differ in appearance statistics, morphological structures such as cellular topology and tissue boundaries are largely preserved across acquisition protocols. However, existing methods often model these factors within a homogeneous token stream, implicitly coupling structure with appearance and weakening structural controllability under modality shifts. To address this, we propose pathology Autorgressive modeling (PathAR), a structure-first autoregressive synthesis framework that explicitly factorizes structure and appearance for modality-label-conditioned pathology generation.PathAR employs a dual vector quantization (Dual-VQ) tokenizer to decompose samples into mask-grounded structure and appearance tokens, and an interleaved autoregressive (IAR) transformer with asymmetric attention visibility to enforce structure-to-appearance dependence. PathAR stabilizes morphology under heterogeneous modality-specific appearances and enables spatially aligned image--mask pair generation. Extensive experiments show that PathAR improves structural consistency and modality fidelity over baselines, maintains sample diversity, supports downstream segmentation in data-scarce regimes, and demonstrates extensibility to finer-grained intra-modality organ-label variation.

PathAR: Structure-First Autoregressive Synthesis of Multimodal Pathology Images

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理