EgoNight: Towards Egocentric Vision Understanding at Night with a Challenging Benchmark

📄 arXiv: 2510.06218v1 📥 PDF

作者: Deheng Zhang, Yuqian Fu, Runyi Yang, Yang Miao, Tianwen Qian, Xu Zheng, Guolei Sun, Ajad Chhatkuli, Xuanjing Huang, Yu-Gang Jiang, Luc Van Gool, Danda Pani Paudel

分类: cs.CV, cs.AI

发布日期: 2025-10-07


💡 一句话要点

EgoNight:提出首个夜间第一人称视觉理解基准,解决低光照场景下的VQA难题。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 第一人称视觉 夜间视觉 视觉问答 低光照 数据集 基准测试 多模态学习 深度估计

📋 核心要点

  1. 现有第一人称视觉基准主要集中在白天场景,忽略了真实应用中不可避免的低光照条件。
  2. EgoNight通过引入日夜对齐视频,利用白天数据提升夜间标注质量,构建夜间VQA基准。
  3. 实验表明,现有MLLM在EgoNight上从白天到夜晚的性能显著下降,突显了夜间视觉理解的挑战。

📝 摘要(中文)

本文提出了EgoNight,首个全面的夜间第一人称视觉基准,核心任务是视觉问答(VQA)。EgoNight的关键特性是引入了日夜对齐的视频,利用白天数据增强夜间标注质量,并揭示了不同光照条件下的性能差距。为此,我们收集了Blender渲染的合成视频和真实世界的录制视频,确保场景和动作在视觉和时间上对齐。基于这些配对视频,我们构建了EgoNight-VQA,它由一种新颖的日间增强夜间自动标注引擎支持,并通过广泛的人工验证进行完善。每个QA对都经过标注者的双重检查以确保可靠性。EgoNight-VQA总共包含90个视频中的3658个QA对,涵盖12种不同的QA类型,耗费了300多个小时的人工工作。对最先进的多模态大型语言模型(MLLM)的评估表明,从白天转移到夜晚时性能大幅下降,突显了在低光照条件下进行推理的挑战。除了VQA之外,EgoNight还引入了两个辅助任务,即日夜对应检索和夜间第一人称深度估计,进一步探索了现有模型的边界。我们相信EgoNight-VQA为推进应用驱动的第一人称视觉研究以及开发能够跨光照域泛化的模型奠定了坚实的基础。所有数据和代码将在接受后提供。

🔬 方法详解

问题定义:论文旨在解决夜间第一人称视觉理解的难题,特别是视觉问答(VQA)任务。现有方法在白天场景表现良好,但在低光照的夜间场景下性能显著下降。痛点在于缺乏高质量的夜间第一人称视觉数据集,以及现有模型在光照变化下的泛化能力不足。

核心思路:论文的核心思路是构建一个高质量的、日夜对齐的夜间第一人称视觉数据集EgoNight。通过日夜对齐,可以利用白天数据辅助夜间数据的标注,从而提高标注质量。同时,通过在EgoNight上评估现有模型,可以揭示模型在夜间场景下的性能瓶颈,并为未来的研究提供方向。

技术框架:EgoNight的构建主要包含以下几个阶段:1) 数据收集:收集合成的日夜对齐视频(Blender渲染)和真实的日夜对齐视频。2) 数据标注:利用一种新颖的日间增强夜间自动标注引擎,结合人工验证,构建EgoNight-VQA数据集。3) 模型评估:在EgoNight上评估现有的多模态大型语言模型(MLLM),并分析其性能。此外,还引入了日夜对应检索和夜间第一人称深度估计两个辅助任务。

关键创新:EgoNight的主要创新点在于:1) 它是首个全面的夜间第一人称视觉基准。2) 引入了日夜对齐的视频,利用白天数据增强夜间标注质量。3) 提出了日间增强夜间自动标注引擎,提高了标注效率和质量。与现有方法相比,EgoNight更加关注夜间场景,并提供了更全面的评估任务。

关键设计:EgoNight-VQA数据集包含3658个QA对,涵盖12种不同的QA类型。日间增强夜间自动标注引擎的具体实现细节未知,但其核心思想是利用白天视频的信息来辅助夜间视频的标注。人工验证过程采用双重检查机制,确保标注的可靠性。论文未提供关于网络结构、损失函数等具体技术细节。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有的多模态大型语言模型(MLLM)在EgoNight上从白天到夜晚的性能大幅下降,突显了夜间视觉理解的挑战。例如,VQA任务的准确率在夜间场景下显著降低。EgoNight的发布为研究者提供了一个评估和改进夜间视觉理解算法的平台。

🎯 应用场景

EgoNight的研究成果可应用于智能安防、自动驾驶、夜间巡逻机器人、夜间辅助导航等领域。该数据集和基准的发布,将促进夜间视觉理解算法的发展,提升相关应用在低光照环境下的性能和可靠性,为人们的夜间生活带来便利和安全。

📄 摘要(原文)

Most existing benchmarks for egocentric vision understanding focus primarily on daytime scenarios, overlooking the low-light conditions that are inevitable in real-world applications. To investigate this gap, we present EgoNight, the first comprehensive benchmark for nighttime egocentric vision, with visual question answering (VQA) as the core task. A key feature of EgoNight is the introduction of day-night aligned videos, which enhance night annotation quality using the daytime data and reveal clear performance gaps between lighting conditions. To achieve this, we collect both synthetic videos rendered by Blender and real-world recordings, ensuring that scenes and actions are visually and temporally aligned. Leveraging these paired videos, we construct EgoNight-VQA, supported by a novel day-augmented night auto-labeling engine and refinement through extensive human verification. Each QA pair is double-checked by annotators for reliability. In total, EgoNight-VQA contains 3658 QA pairs across 90 videos, spanning 12 diverse QA types, with more than 300 hours of human work. Evaluations of state-of-the-art multimodal large language models (MLLMs) reveal substantial performance drops when transferring from day to night, underscoring the challenges of reasoning under low-light conditions. Beyond VQA, EgoNight also introduces two auxiliary tasks, day-night correspondence retrieval and egocentric depth estimation at night, that further explore the boundaries of existing models. We believe EgoNight-VQA provides a strong foundation for advancing application-driven egocentric vision research and for developing models that generalize across illumination domains. All the data and code will be made available upon acceptance.