Reconstruction as a Bridge for Event-Based Visual Question Answering

📄 arXiv: 2512.11510v1 📥 PDF

作者: Hanyue Lou, Jiayi Zhou, Yang Zhang, Boyu Li, Yi Wang, Guangnan Ye, Boxin Shi

分类: cs.CV

发布日期: 2025-12-12


💡 一句话要点

提出基于重建桥梁的事件相机视觉问答方法,并构建EvQA基准

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件相机 视觉问答 多模态学习 大型语言模型 重建 EvQA基准 自适应Token化

📋 核心要点

  1. 事件相机数据与MLLM结合面临如何兼顾事件数据优势和帧模型兼容性的挑战。
  2. 论文核心思想是利用重建作为桥梁,将事件数据转换为MLLM易于处理的格式。
  3. 实验结果表明,提出的FRT和ART方法在EvQA基准上取得了SOTA性能,验证了有效性。

📝 摘要(中文)

本文旨在将事件相机与多模态大型语言模型(MLLM)相结合,以实现复杂视觉条件下的通用场景理解。由于需要权衡事件数据的独特优势与帧模型的兼容性,本文提出使用重建作为桥梁。具体而言,提出了两种方法:一种是直接的基于帧的重建和Token化(FRT)方法,另一种是利用事件稀疏性的高效自适应重建和Token化(ART)方法。为了进行可靠的评估,本文构建了EvQA,这是第一个用于事件相机MLLM的客观、真实世界基准,包含来自22个公共数据集的1000个事件-问答对。实验结果表明,本文提出的方法在EvQA上实现了最先进的性能,突出了MLLM在事件相机视觉中的巨大潜力。

🔬 方法详解

问题定义:事件相机数据具有高动态范围和低延迟等优点,但与传统的基于帧的视觉模型存在兼容性问题。现有的方法难以充分利用事件数据的优势,同时保持与现有视觉模型的兼容性,限制了事件相机在视觉问答等任务中的应用。

核心思路:本文的核心思路是将事件数据重建为帧图像,从而利用现有的基于帧的MLLM进行视觉问答。通过重建,可以将事件数据的优势(如高动态范围)转化为帧图像的特征,同时保持与现有模型的兼容性。

技术框架:整体框架包括事件数据输入、重建模块、Token化模块和MLLM问答模块。首先,事件数据通过重建模块转换为帧图像。然后,帧图像通过Token化模块转换为MLLM可以处理的Token序列。最后,Token序列和问题输入到MLLM中,得到答案。FRT方法直接使用帧重建,ART方法则根据事件稀疏性自适应地进行重建和Token化。

关键创新:关键创新在于将重建作为事件相机数据与MLLM之间的桥梁,提出了FRT和ART两种重建和Token化方法。ART方法通过自适应地利用事件稀疏性,提高了重建效率和性能。此外,构建了EvQA基准,为事件相机视觉问答提供了客观的评估平台。

关键设计:FRT方法使用简单的帧重建算法,例如将事件累积到帧中。ART方法则设计了自适应的重建策略,根据事件的稀疏程度调整重建参数。Token化模块可以使用现有的视觉Token化方法,例如ViT。损失函数包括重建损失和问答损失,用于优化重建模块和MLLM。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,提出的FRT和ART方法在EvQA基准上取得了SOTA性能。具体而言,ART方法在EvQA上的性能优于FRT方法,验证了自适应重建策略的有效性。此外,实验还表明,使用更大的MLLM可以进一步提高性能。

🎯 应用场景

该研究成果可应用于自动驾驶、机器人导航、安防监控等领域。事件相机在高动态范围和低延迟方面的优势使其在光照条件恶劣或快速运动场景中具有独特的优势。通过与MLLM结合,可以实现更智能、更可靠的视觉感知和决策。

📄 摘要(原文)

Integrating event cameras with Multimodal Large Language Models (MLLMs) promises general scene understanding in challenging visual conditions, yet requires navigating a trade-off between preserving the unique advantages of event data and ensuring compatibility with frame-based models. We address this challenge by using reconstruction as a bridge, proposing a straightforward Frame-based Reconstruction and Tokenization (FRT) method and designing an efficient Adaptive Reconstruction and Tokenization (ART) method that leverages event sparsity. For robust evaluation, we introduce EvQA, the first objective, real-world benchmark for event-based MLLMs, comprising 1,000 event-Q&A pairs from 22 public datasets. Our experiments demonstrate that our methods achieve state-of-the-art performance on EvQA, highlighting the significant potential of MLLMs in event-based vision.