Reading in the Dark with Foveated Event Vision

📄 arXiv: 2506.06918v1 📥 PDF

作者: Carl Brander, Giovanni Cioffi, Nico Messikommer, Davide Scaramuzza

分类: cs.CV, cs.RO

发布日期: 2025-06-07

备注: CVPR 2025 Workshop on Event-based Vision


💡 一句话要点

提出基于眼动注视的事件相机OCR方法,解决智能眼镜在弱光和高速运动下文本识别难题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 事件相机 眼动追踪 光学字符识别 弱光环境 深度学习

📋 核心要点

  1. 传统RGB相机在弱光和高速运动下存在运动模糊和动态范围限制,导致智能眼镜难以清晰识别文本。
  2. 利用眼动追踪引导事件相机,聚焦用户注视区域,显著降低数据带宽需求,同时发挥事件相机优势。
  3. 通过深度二元重建和多模态LLM,该方法在弱光环境下实现了优于传统OCR方案的文本识别效果。

📝 摘要(中文)

当前配备RGB相机的智能眼镜在弱光和高速运动场景中,由于运动模糊和帧相机的有限动态范围,难以感知环境。此外,使用帧相机捕获密集图像需要大量带宽和功耗,从而更快地耗尽电池。这些挑战对于开发能够从图像中读取文本的算法尤为重要。本文提出了一种用于智能眼镜的基于事件的光学字符识别(OCR)新方法。通过使用用户的眼动注视,我们对事件流进行注视,从而显著降低约98%的带宽,同时利用事件相机在高动态和快速场景中的优势。我们提出的方法执行在合成数据上训练的深度二元重建,并利用多模态LLM进行OCR,优于传统的OCR解决方案。我们的结果表明,该方法能够在RGB相机难以工作的弱光环境中读取文本,同时使用的带宽比可穿戴RGB相机少2400倍。

🔬 方法详解

问题定义:论文旨在解决智能眼镜在弱光和高速运动场景下,使用传统RGB相机进行文本识别时遇到的困难。RGB相机在此类场景中容易产生运动模糊,且动态范围有限,导致图像质量下降,影响OCR的准确性。此外,高分辨率图像需要大量带宽和功耗,对可穿戴设备的电池续航构成挑战。

核心思路:论文的核心思路是利用事件相机和眼动追踪技术。事件相机具有高动态范围和低延迟的特性,能够有效应对弱光和高速运动场景。通过眼动追踪确定用户的注视区域,然后对事件流进行注视,只处理用户关注的区域,从而大幅降低数据带宽需求。

技术框架:该方法主要包含以下几个阶段:1) 使用事件相机获取事件流数据;2) 利用眼动追踪技术确定用户的注视区域;3) 对事件流进行注视,提取注视区域的事件数据;4) 使用深度学习模型对事件数据进行二元重建,生成图像;5) 使用多模态LLM对重建后的图像进行OCR识别。

关键创新:该方法最重要的创新点在于将眼动追踪、事件相机和多模态LLM相结合,实现了一种低功耗、高效率的弱光文本识别方案。与传统的基于帧的OCR方法相比,该方法能够显著降低带宽需求,并在弱光和高速运动场景下获得更好的识别效果。

关键设计:论文使用深度神经网络进行二元重建,网络的具体结构未知。损失函数和训练细节也未知。论文强调了使用合成数据进行训练,以克服事件相机数据标注的困难。多模态LLM的选择和配置也未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在弱光环境下能够有效读取文本,且带宽消耗比传统RGB相机方案降低了2400倍。该方法优于传统的OCR解决方案,但具体的性能指标和对比基线未知。

🎯 应用场景

该研究成果可应用于智能眼镜、辅助视觉设备等领域,帮助用户在弱光、高速运动等复杂环境下阅读文本。例如,在夜间阅读书籍、在运动中查看导航信息等。该技术还有潜力应用于工业巡检、机器人导航等领域,提升设备在复杂环境下的感知能力。

📄 摘要(原文)

Current smart glasses equipped with RGB cameras struggle to perceive the environment in low-light and high-speed motion scenarios due to motion blur and the limited dynamic range of frame cameras. Additionally, capturing dense images with a frame camera requires large bandwidth and power consumption, consequently draining the battery faster. These challenges are especially relevant for developing algorithms that can read text from images. In this work, we propose a novel event-based Optical Character Recognition (OCR) approach for smart glasses. By using the eye gaze of the user, we foveate the event stream to significantly reduce bandwidth by around 98% while exploiting the benefits of event cameras in high-dynamic and fast scenes. Our proposed method performs deep binary reconstruction trained on synthetic data and leverages multimodal LLMs for OCR, outperforming traditional OCR solutions. Our results demonstrate the ability to read text in low light environments where RGB cameras struggle while using up to 2400 times less bandwidth than a wearable RGB camera.