Generative Event Pretraining with Foundation Model Alignment
作者: Jianwen Cao, Jiaxu Xing, Nico Messikommer, Davide Scaramuzza
分类: cs.CV, cs.RO
发布日期: 2026-03-24
💡 一句话要点
提出GEP:通过对齐视觉基础模型进行生成式事件预训练
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事件相机 视觉基础模型 预训练 生成模型 对比学习 时间序列建模 机器人视觉
📋 核心要点
- 事件相机数据缺乏大规模标注,且传感特性独特,导致难以训练有效的事件视觉基础模型。
- GEP框架通过两阶段训练,首先对齐事件编码器与视觉基础模型,然后进行生成式序列预训练,学习事件的时间动态。
- 实验表明,GEP在对象识别、分割和深度估计等任务上,显著优于现有事件预训练方法,泛化能力更强。
📝 摘要(中文)
事件相机以其微秒级的延迟和高动态范围,在快速运动和具有挑战性的光照条件下提供鲁棒的视觉信号。然而,由于其独特的传感特性和有限的标注数据,训练基于事件的视觉基础模型(VFMs)极具挑战性,而VFMs对于学习跨任务可迁移的视觉特征至关重要。为了解决这个问题,我们提出了GEP(生成式事件预训练),这是一个两阶段框架,它将从互联网规模图像数据集学习到的语义知识迁移到事件数据,同时学习事件特定的时间动态。首先,通过联合回归-对比目标,将事件编码器与冻结的VFM对齐,从而将事件特征植根于图像语义中。其次,自回归地在混合事件-图像序列上预训练Transformer主干网络,以捕获事件独有的时间结构。我们的方法在各种下游任务(包括对象识别、分割和深度估计)上优于最先进的事件预训练方法。总之,VFM引导的对齐和生成式序列建模产生了一个语义丰富、具有时间感知能力的事件模型,该模型可以在不同领域中稳健地泛化。
🔬 方法详解
问题定义:论文旨在解决事件相机数据训练视觉基础模型(VFMs)的难题。现有方法受限于事件数据的特殊性(异步、稀疏)和缺乏大规模标注,难以有效利用预训练的图像模型,导致事件VFM的性能和泛化能力不足。
核心思路:论文的核心思路是利用大规模图像数据集预训练的视觉基础模型(VFM)的语义知识,通过对齐的方式迁移到事件数据上,同时学习事件数据特有的时间动态。通过两阶段的预训练,使事件模型既具备图像语义理解能力,又能够处理事件流的时间信息。
技术框架:GEP框架包含两个主要阶段:1) 视觉基础模型对齐:使用联合回归-对比损失,将事件编码器的输出与冻结的VFM的特征对齐,从而将事件特征嵌入到图像语义空间中。2) 生成式序列预训练:使用Transformer作为主干网络,在混合的事件-图像序列上进行自回归预训练,学习事件数据的时间依赖关系。
关键创新:论文的关键创新在于结合了视觉基础模型的语义知识迁移和生成式序列建模,从而有效地利用了大规模图像数据和事件数据的时间信息。通过VFM对齐,事件模型获得了图像语义理解能力;通过生成式预训练,事件模型学习了事件流的时间动态。这种结合使得GEP能够学习到更具表达力和泛化能力的事件特征。
关键设计:在视觉基础模型对齐阶段,使用了联合回归-对比损失,其中回归损失用于最小化事件特征和VFM特征之间的距离,对比损失用于区分不同的事件和图像对。在生成式序列预训练阶段,使用了Transformer作为主干网络,并采用了自回归的方式进行训练,即根据之前的事件和图像预测下一个事件或图像。混合事件-图像序列的构建方式未知,但推测是增强模型的鲁棒性。
🖼️ 关键图片
📊 实验亮点
GEP在多个下游任务上取得了显著的性能提升。例如,在对象识别任务中,GEP优于现有的事件预训练方法。在分割和深度估计任务中,GEP也表现出更强的泛化能力。具体的性能数据和提升幅度在论文中进行了详细的展示。
🎯 应用场景
该研究成果可广泛应用于机器人、自动驾驶、增强现实等领域。事件相机在这些领域中具有独特的优势,例如在高速运动和高动态范围场景下的鲁棒性。通过GEP预训练的事件模型可以提升这些应用中的感知能力,例如目标跟踪、场景理解和导航。
📄 摘要(原文)
Event cameras provide robust visual signals under fast motion and challenging illumination conditions thanks to their microsecond latency and high dynamic range. However, their unique sensing characteristics and limited labeled data make it challenging to train event-based visual foundation models (VFMs), which are crucial for learning visual features transferable across tasks. To tackle this problem, we propose GEP (Generative Event Pretraining), a two-stage framework that transfers semantic knowledge learned from internet-scale image datasets to event data while learning event-specific temporal dynamics. First, an event encoder is aligned to a frozen VFM through a joint regression-contrastive objective, grounding event features in image semantics. Second, a transformer backbone is autoregressively pretrained on mixed event-image sequences to capture the temporal structure unique to events. Our approach outperforms state-of-the-art event pretraining methods on a diverse range of downstream tasks, including object recognition, segmentation, and depth estimation. Together, VFM-guided alignment and generative sequence modeling yield a semantically rich, temporally aware event model that generalizes robustly across domains.