Reading Recognition in the Wild

📄 arXiv: 2505.24848v2 📥 PDF

作者: Charig Yang, Samiul Alam, Shakhrul Iman Siam, Michael J. Proulx, Lambert Mathias, Kiran Somasundaram, Luis Pesqueira, James Fort, Sheroze Sheriffdeen, Omkar Parkhi, Carl Ren, Mi Zhang, Yuning Chai, Richard Newcombe, Hyo Jin Kim

分类: cs.CV, cs.LG

发布日期: 2025-05-30 (更新: 2025-06-05)

备注: Project Page: https://www.projectaria.com/datasets/reading-in-the-wild/


💡 一句话要点

提出 Reading in the Wild 数据集,并用 Transformer 模型实现智能眼镜中的阅读识别

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阅读识别 多模态融合 Transformer模型 智能眼镜 眼动追踪 头部姿势 Reading in the Wild数据集

📋 核心要点

  1. 现有阅读理解研究多局限于受控环境,缺乏大规模、多样性和真实性。
  2. 提出 Reading in the Wild 数据集,并利用多模态信息(RGB、眼动追踪、头部姿势)进行阅读识别。
  3. 实验证明,所选模态具有相关性和互补性,Transformer 模型能够有效利用这些模态。

📝 摘要(中文)

为了在常开智能眼镜中实现以自我为中心的上下文人工智能,记录用户与世界的交互至关重要,包括阅读期间的交互。本文介绍了一项新的阅读识别任务,旨在确定用户何时在阅读。首先,我们推出了首个大规模多模态 Reading in the Wild 数据集,其中包含在各种真实场景下 100 小时的阅读和非阅读视频。然后,我们确定了三种可用于解决该任务的模态(以自我为中心的 RGB、眼动追踪、头部姿势),并提出了一个灵活的 Transformer 模型,该模型可以使用这些模态单独或组合地执行该任务。我们表明这些模态与该任务相关且互补,并研究如何有效且高效地编码每种模态。此外,我们展示了该数据集在对阅读类型进行分类方面的实用性,从而将当前在受限环境中进行的阅读理解研究扩展到更大的规模、多样性和真实性。

🔬 方法详解

问题定义:论文旨在解决在真实、非受控环境下,智能眼镜如何准确识别用户是否正在阅读的问题。现有方法或数据集通常局限于实验室环境,无法有效应对现实场景中的复杂性和多样性,例如光照变化、姿势变化以及不同的阅读材料等。

核心思路:论文的核心思路是利用多模态信息融合来提高阅读识别的准确性和鲁棒性。通过结合以自我为中心的 RGB 图像、眼动追踪数据和头部姿势信息,模型可以更全面地理解用户的阅读行为。这种多模态融合能够弥补单一模态的不足,例如,RGB 图像可能受到遮挡或光照的影响,而眼动追踪和头部姿势则可以提供额外的上下文信息。

技术框架:整体框架包含数据采集、数据预处理、特征提取和模型训练四个主要阶段。首先,利用智能眼镜采集用户的 RGB 视频、眼动追踪数据和头部姿势数据。然后,对这些数据进行预处理,包括数据清洗、同步和对齐。接下来,使用不同的编码器提取每种模态的特征。最后,将提取的特征输入到 Transformer 模型中进行融合和分类,判断用户是否正在阅读。

关键创新:该论文的关键创新在于提出了一个大规模、多模态的 Reading in the Wild 数据集,并探索了如何有效地利用多模态信息进行阅读识别。此外,论文还提出了一种灵活的 Transformer 模型,可以根据不同的模态组合进行调整,从而适应不同的应用场景。

关键设计:论文中使用了 Transformer 模型作为核心分类器,并针对不同的模态设计了不同的编码器。例如,对于 RGB 图像,可以使用卷积神经网络(CNN)提取视觉特征;对于眼动追踪数据和头部姿势数据,可以使用循环神经网络(RNN)或 Transformer 编码器提取时序特征。损失函数方面,可以使用交叉熵损失函数来训练模型,并采用数据增强等技术来提高模型的泛化能力。具体的参数设置和网络结构细节在论文中进行了详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含100小时阅读和非阅读视频的大规模数据集。实验结果表明,结合 RGB、眼动追踪和头部姿势等多模态信息,Transformer 模型能够有效提高阅读识别的准确率。论文还分析了不同模态对阅读识别任务的贡献,发现这些模态之间具有互补性。

🎯 应用场景

该研究成果可应用于智能眼镜、辅助阅读设备等领域。通过准确识别用户的阅读行为,智能眼镜可以提供个性化的信息推荐、内容摘要和翻译等服务,从而提升用户体验。此外,该技术还可以用于教育领域,例如评估学生的阅读习惯和理解能力,并提供个性化的学习建议。未来,该技术有望进一步扩展到其他领域,例如人机交互、虚拟现实和增强现实等。

📄 摘要(原文)

To enable egocentric contextual AI in always-on smart glasses, it is crucial to be able to keep a record of the user's interactions with the world, including during reading. In this paper, we introduce a new task of reading recognition to determine when the user is reading. We first introduce the first-of-its-kind large-scale multimodal Reading in the Wild dataset, containing 100 hours of reading and non-reading videos in diverse and realistic scenarios. We then identify three modalities (egocentric RGB, eye gaze, head pose) that can be used to solve the task, and present a flexible transformer model that performs the task using these modalities, either individually or combined. We show that these modalities are relevant and complementary to the task, and investigate how to efficiently and effectively encode each modality. Additionally, we show the usefulness of this dataset towards classifying types of reading, extending current reading understanding studies conducted in constrained settings to larger scale, diversity and realism.