REALM: An RGB and Event Aligned Latent Manifold for Cross-Modal Perception

📄 arXiv: 2605.00271v1 📥 PDF

作者: Vincenzo Polizzi, David B. Lindell, Jonathan Kelly

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-04-30


💡 一句话要点

REALM:提出RGB和事件对齐的潜在流形,实现跨模态感知

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件相机 跨模态学习 潜在空间 低秩适应 特征匹配 深度估计 语义分割

📋 核心要点

  1. 现有事件相机学习方法局限于特定任务,缺乏跨模态泛化能力。
  2. REALM通过学习RGB和事件对齐的潜在流形,将事件数据映射到预训练RGB模型的潜在空间。
  3. 实验表明,REALM在宽基线特征匹配上取得了SOTA性能,并能零样本迁移图像解码器。

📝 摘要(中文)

本文提出REALM,一个跨模态框架,通过将事件表示投影到预训练的RGB基础模型的潜在空间中,学习RGB和事件对齐的潜在流形。该方法不进行特定任务的训练,而是利用低秩适应(LoRA)来弥合模态差距,从而有效地为异步事件流解锁冻结的RGB骨干网络的几何和语义先验知识。实验证明,REALM能够有效地将事件映射到基于ViT的基础潜在空间。该方法允许通过简单地迁移在RGB教师上训练的线性头来执行诸如深度估计和语义分割之类的下游任务。最重要的是,REALM能够将复杂的、冻结的图像训练解码器(如MASt3R)直接、零样本应用于原始事件数据。在宽基线特征匹配方面,该方法表现出最先进的性能,显著优于专门的架构。代码和模型将在接收后提供。

🔬 方法详解

问题定义:现有基于事件相机的学习方法通常针对特定任务进行训练,缺乏跨模态的通用性。这些方法难以利用大规模RGB图像数据中学习到的丰富语义和几何先验知识,限制了其在复杂场景中的应用。现有方法难以直接利用图像领域先进的解码器结构,例如MASt3R等。

核心思路:REALM的核心思路是将事件数据转换到与RGB图像数据对齐的潜在空间中,从而能够利用预训练的RGB基础模型所学习到的知识。通过这种模态对齐,事件数据可以受益于RGB模型的强大特征提取能力和泛化能力,实现跨模态的知识迁移。

技术框架:REALM框架包含事件编码器、RGB基础模型(例如ViT)和低秩适应(LoRA)模块。事件数据首先通过事件编码器提取特征,然后通过LoRA模块将事件特征投影到RGB基础模型的潜在空间中。LoRA模块通过学习低秩矩阵来调整RGB基础模型的参数,从而实现模态对齐。对齐后的事件特征可以用于下游任务,例如深度估计、语义分割和特征匹配。

关键创新:REALM的关键创新在于提出了RGB和事件对齐的潜在流形。通过将事件数据投影到预训练的RGB模型的潜在空间中,REALM能够利用RGB模型的知识,实现跨模态的知识迁移。此外,REALM使用LoRA模块进行模态对齐,避免了对整个RGB模型进行微调,降低了计算成本。

关键设计:REALM使用ViT作为RGB基础模型,并使用预训练的权重。LoRA模块通过学习低秩矩阵来调整ViT的参数,从而实现模态对齐。损失函数包括对比损失和重建损失,用于保证事件特征和RGB特征在潜在空间中的对齐。具体参数设置(例如LoRA的秩、损失函数的权重)需要根据具体任务进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

REALM在宽基线特征匹配任务上取得了显著的性能提升,超越了现有的专门架构。该方法能够直接将复杂的、冻结的图像训练解码器(如MASt3R)应用于原始事件数据,实现了零样本迁移。这些实验结果表明,REALM能够有效地将事件数据映射到RGB模型的潜在空间中,并利用RGB模型的知识来提高事件数据的感知能力。

🎯 应用场景

REALM具有广泛的应用前景,包括机器人导航、自动驾驶、增强现实和虚拟现实等领域。通过将事件数据与RGB图像数据相结合,REALM可以提高感知系统的鲁棒性和准确性,从而实现更安全、更可靠的智能系统。该方法还可以用于开发新的跨模态应用,例如基于事件相机的三维重建和场景理解。

📄 摘要(原文)

Event cameras provide several unique advantages over standard frame-based sensors, including high temporal resolution, low latency, and robustness to extreme lighting. However, existing learning-based approaches for event processing are typically confined to narrow, task-specific silos and lack the ability to generalize across modalities. We address this gap with REALM, a cross-modal framework that learns an RGB and Event Aligned Latent Manifold by projecting event representations into the pretrained latent space of RGB foundation models. Instead of task-specific training, we leverage low-rank adaptation (LoRA) to bridge the modality gap, effectively unlocking the geometric and semantic priors of frozen RGB backbones for asynchronous event streams. We demonstrate that REALM effectively maps events into the ViT-based foundation latent space. Our method allows us to perform downstream tasks like depth estimation and semantic segmentation by simply transferring linear heads trained on the RGB teacher. Most significantly, REALM enables the direct, zero-shot application of complex, frozen image-trained decoders, such as MASt3R, to raw event data. We demonstrate state-of-the-art performance in wide-baseline feature matching, significantly outperforming specialized architectures. Code and models are available upon acceptance.