HQ-JEPA: Hybrid Quantum Joint-Embedding Predictive Architecture for Cross-Modal Remote Sensing Representation Learning

📄 arXiv: 2605.31068v1 📥 PDF

作者: Md Aminur Hossain, Ayush V. Patel, Sanjay K. Singh, Biplab Banerjee

分类: cs.CV

发布日期: 2026-05-29

备注: 19 pages


💡 一句话要点

提出HQ-JEPA,用于跨模态遥感表征学习的混合量子联合嵌入预测架构

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 遥感图像 跨模态学习 自监督学习 量子计算 表征学习

📋 核心要点

  1. 现有遥感表征学习方法通常依赖像素重建,忽略了直接在潜在空间学习语义表征的潜力。
  2. HQ-JEPA通过预测掩码潜在表征,并结合跨模态对齐、几何正则化和量子相似性,提升表征质量。
  3. 实验表明,HQ-JEPA在GeoBench任务上优于现有自监督和遥感基础模型,验证了其有效性。

📝 摘要(中文)

本文提出了一种混合量子-经典联合嵌入预测架构HQ-JEPA,用于跨模态遥感表征学习。该框架将JEPA风格的掩码潜在预测扩展到配对的Sentinel-1和Sentinel-2图像,通过从可见上下文区域预测掩码目标表征,并在共享嵌入空间中对齐异构模态特征。为了提高表征质量,HQ-JEPA结合了四个互补的目标:潜在token预测、跨模态token对齐、基于SIGReg的融合潜在空间中的高斯正则化,以及基于可微SWAP测试的保真度量子相似性(FQS)损失。与像素重建方法不同,HQ-JEPA直接在潜在空间中学习语义表征,并使用基于量子态重叠的相似性作为额外的正则化信号。在GeoBench分类和分割任务上,通过线性探测和微调设置评估了预训练编码器。结果表明,HQ-JEPA在强大的自监督和遥感基础模型基线上实现了有竞争力的甚至更优越的性能,证明了集成预测自监督、跨模态几何正则化和基于量子保真度的表征学习对遥感应用的益处。

🔬 方法详解

问题定义:遥感图像处理中,如何有效地学习跨模态(如Sentinel-1和Sentinel-2)图像的语义表征是一个关键问题。现有的方法,如基于像素重建的方法,往往无法充分利用潜在空间中的语义信息,且缺乏对异构模态特征的有效对齐和正则化。

核心思路:HQ-JEPA的核心思路是通过联合嵌入预测架构,在潜在空间中直接学习语义表征。它通过预测掩码区域的潜在表征,迫使模型学习上下文信息,并结合跨模态对齐、几何正则化和量子相似性,提高表征的质量和泛化能力。这种设计旨在克服传统像素重建方法的局限性,并利用量子计算的优势。

技术框架:HQ-JEPA的整体架构包含以下几个主要模块:1) 编码器:用于将Sentinel-1和Sentinel-2图像编码到潜在空间;2) 掩码模块:用于随机掩盖潜在表征的部分区域;3) 预测模块:用于根据可见上下文预测掩码区域的表征;4) 损失函数:包含潜在token预测损失、跨模态token对齐损失、SIGReg正则化损失和FQS损失。整个流程通过最小化损失函数,优化编码器的参数,从而学习到高质量的跨模态表征。

关键创新:HQ-JEPA的关键创新在于:1) 提出了一种混合量子-经典架构,将量子计算引入到遥感表征学习中;2) 结合了多种互补的损失函数,包括潜在token预测、跨模态对齐、几何正则化和量子相似性,从而提高了表征的质量;3) 直接在潜在空间中学习语义表征,避免了像素重建方法的局限性。与现有方法的本质区别在于,HQ-JEPA利用量子计算的优势,并结合多种正则化手段,学习更鲁棒和泛化的表征。

关键设计:HQ-JEPA的关键设计包括:1) 使用Transformer作为编码器,以捕捉图像中的长程依赖关系;2) 采用SIGReg正则化,以约束潜在空间的几何结构;3) 使用可微SWAP测试计算FQS损失,以衡量量子态的相似性。此外,HQ-JEPA还采用了特定的掩码策略和优化算法,以提高训练的效率和稳定性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

HQ-JEPA在GeoBench数据集上进行了评估,结果表明其在分类和分割任务上均取得了优异的性能。例如,在土地覆盖分类任务中,HQ-JEPA的准确率超过了现有自监督方法和遥感基础模型,提升幅度显著。此外,HQ-JEPA在微调设置下也表现出强大的竞争力,验证了其学习到的表征具有良好的泛化能力。

🎯 应用场景

HQ-JEPA在遥感图像分析领域具有广泛的应用前景,例如土地覆盖分类、农作物监测、自然灾害评估和城市规划等。通过学习高质量的跨模态表征,HQ-JEPA可以提高遥感图像分析的准确性和效率,为相关领域的决策提供更可靠的支持。未来,该方法有望应用于更复杂的遥感场景,并与其他先进技术相结合,推动遥感领域的发展。

📄 摘要(原文)

We introduce HQ-JEPA, a hybrid quantum-classical joint-embedding predictive architecture for cross-modal remote sensing representation learning. The proposed framework extends JEPA-style masked latent prediction to paired Sentinel-1 and Sentinel-2 imagery by predicting masked target representations from visible context regions while aligning heterogeneous modality features in a shared embedding space. To improve representation quality, HQ-JEPA combines four complementary objectives: latent token prediction, cross-modal token alignment, SIGReg-based Gaussian regularization in the fused latent space, and a differentiable SWAP-test-based Fidelity Quantum Similarity (FQS) loss. Unlike pixel reconstruction methods, HQ-JEPA learns semantic representations directly in latent space and uses quantum state-overlap-based similarity as an additional regularization signal. We evaluate the pretrained encoder on GeoBench classification and segmentation tasks under linear probing and fine-tuning settings. Results show that HQ-JEPA achieves competitive and often superior performance over strong self-supervised and remote sensing foundation-model baselines, demonstrating the benefit of integrating predictive self-supervision, cross-modal geometric regularization, and quantum fidelity-based representation learning for remote sensing applications.