EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering
作者: Sheng Zhou, Junbin Xiao, Qingyun Li, Yicong Li, Xun Yang, Dan Guo, Meng Wang, Tat-Seng Chua, Angela Yao
分类: cs.CV, cs.MM
发布日期: 2025-02-11 (更新: 2025-03-21)
备注: Accepted by CVPR 2025
🔗 代码/项目: GITHUB
💡 一句话要点
提出EgoTextVQA基准,用于评测以自我为中心的场景文本感知视频问答能力。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 第一人称视角 视频问答 场景文本识别 多模态学习 基准数据集
📋 核心要点
- 现有方法在理解以自我为中心的动态场景中的文本信息,并进行有效问答方面存在不足。
- 构建EgoTextVQA基准,专注于场景文本感知的视频问答,旨在促进相关算法的研究与发展。
- 实验表明,现有大型多模态模型在EgoTextVQA上表现不佳,突显了该领域的挑战与机遇。
📝 摘要(中文)
本文提出了EgoTextVQA,这是一个新颖且严格构建的基准,用于评估涉及场景文本的以自我为中心的问答辅助。EgoTextVQA包含1.5K个第一人称视角视频和7K个场景文本感知的问答,这些问题反映了户外驾驶和室内家务活动中的真实用户需求。这些问题旨在引发对以自我为中心和动态环境中的场景文本的识别和推理。利用EgoTextVQA,我们全面评估了10个突出的多模态大型语言模型。目前,所有模型都表现不佳,最好的结果(Gemini 1.5 Pro)准确率约为33%,突显了这些技术在以自我为中心的问答辅助方面的严重不足。我们的进一步研究表明,精确的时间定位和多帧推理,以及高分辨率和辅助场景文本输入,是提高性能的关键。通过彻底的分析和启发式建议,我们希望EgoTextVQA可以作为以自我为中心的场景文本问答辅助研究的坚实试验平台。我们的数据集已在https://github.com/zhousheng97/EgoTextVQA发布。
🔬 方法详解
问题定义:论文旨在解决以自我为中心的视频问答(EgoVQA)中,对场景文本理解不足的问题。现有方法难以有效利用第一人称视角视频中出现的动态场景文本信息,导致在需要文本理解和推理的VQA任务中表现不佳。痛点在于缺乏专门针对该问题的基准数据集和评估方法。
核心思路:核心思路是构建一个高质量的、场景文本感知的EgoVQA基准数据集EgoTextVQA。通过设计包含真实用户需求的、需要识别和推理场景文本的问题,来评估和推动模型在以自我为中心的动态环境中理解文本信息的能力。这样设计可以更真实地反映实际应用场景的需求,并促进相关算法的开发。
技术框架:EgoTextVQA数据集包含1.5K个第一人称视角视频和7K个场景文本感知的问答。视频内容涵盖户外驾驶和室内家务活动。问题设计侧重于需要识别和推理场景文本的任务。论文使用该数据集评估了10个主流的多模态大型语言模型。
关键创新:关键创新在于构建了一个专门针对以自我为中心的场景文本感知视频问答的基准数据集。与现有的EgoVQA数据集相比,EgoTextVQA更加关注场景文本信息,并设计了更具挑战性的问题,从而能够更有效地评估模型在该领域的性能。
关键设计:数据集构建过程中,问题设计围绕真实用户需求展开,并要求模型具备时间定位、多帧推理、高分辨率图像处理以及利用辅助场景文本信息的能力。论文还分析了影响模型性能的关键因素,并提出了启发式建议,例如精确的时间定位和多帧推理的重要性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是目前最先进的多模态大型语言模型(如Gemini 1.5 Pro)在EgoTextVQA上的准确率也仅为33%左右。这表明现有模型在以自我为中心的场景文本感知视频问答方面存在显著不足,同时也突显了EgoTextVQA基准的价值和挑战性。
🎯 应用场景
该研究成果可应用于智能驾驶辅助系统、智能家居助手等领域。例如,在驾驶过程中,系统可以识别路标、交通标志等文本信息,并回答驾驶员提出的相关问题。在家居环境中,助手可以识别物品标签、说明书等文本信息,帮助用户完成家务活动。未来,该技术有望提升人机交互的智能化水平。
📄 摘要(原文)
We introduce EgoTextVQA, a novel and rigorously constructed benchmark for egocentric QA assistance involving scene text. EgoTextVQA contains 1.5K ego-view videos and 7K scene-text aware questions that reflect real user needs in outdoor driving and indoor house-keeping activities. The questions are designed to elicit identification and reasoning on scene text in an egocentric and dynamic environment. With EgoTextVQA, we comprehensively evaluate 10 prominent multimodal large language models. Currently, all models struggle, and the best results (Gemini 1.5 Pro) are around 33\% accuracy, highlighting the severe deficiency of these techniques in egocentric QA assistance. Our further investigations suggest that precise temporal grounding and multi-frame reasoning, along with high resolution and auxiliary scene-text inputs, are key for better performance. With thorough analyses and heuristic suggestions, we hope EgoTextVQA can serve as a solid testbed for research in egocentric scene-text QA assistance. Our dataset is released at: https://github.com/zhousheng97/EgoTextVQA.