Enhancing Screen Time Identification in Children with a Multi-View Vision Language Model and Screen Time Tracker

📄 arXiv: 2410.01966v3 📥 PDF

作者: Xinlong Hou, Sen Shen, Xueshen Li, Xinran Gao, Ziyi Huang, Steven J. Holiday, Matthew R. Cribbet, Susan W. White, Edward Sazonov, Yu Gan

分类: cs.CV, cs.AI

发布日期: 2024-10-02 (更新: 2025-05-08)

备注: Prepare for submission


💡 一句话要点

提出基于多视角视觉语言模型的儿童屏幕时间识别框架,提升自然场景下的监测精度。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 屏幕时间监测 视觉语言模型 多视角学习 儿童行为研究 可穿戴设备

📋 核心要点

  1. 现有儿童屏幕时间监测依赖主观报告或笨重传感器,缺乏效率和准确性,难以量化屏幕暴露。
  2. 论文提出多视角视觉语言模型,利用可穿戴设备的第一人称视角图像序列,动态识别屏幕暴露。
  3. 实验结果表明,该方法显著优于传统视觉语言模型和目标检测模型,提升了屏幕时间识别精度。

📝 摘要(中文)

本研究旨在解决儿童屏幕暴露量化数据获取中,现有自报告方法和笨重可穿戴传感器效率和准确性不足的问题。为此,我们开发了一种新型传感器信息学框架,该框架利用来自可穿戴传感器(屏幕时间追踪器,STT)的以自我为中心的图像和视觉语言模型(VLM)。特别地,我们设计了一个多视角VLM,它从以自我为中心的图像序列中获取多个视角,并动态地解释屏幕暴露。我们使用儿童自由活动数据集验证了我们的方法,结果表明,与现有的普通视觉语言模型和目标检测模型相比,该方法有显著改进。结果支持了这种监测方法的潜力,它可以优化儿童自然环境中的屏幕暴露行为研究。

🔬 方法详解

问题定义:现有儿童屏幕时间监测方法,如自我报告和传统可穿戴传感器,存在主观性强、佩戴不便、数据精度低等问题。这些方法难以准确量化儿童在自然环境下的屏幕暴露情况,阻碍了相关行为研究的深入开展。

核心思路:论文的核心思路是利用可穿戴设备(STT)采集的以自我为中心的图像序列,结合视觉语言模型(VLM),通过分析儿童的视觉环境来判断其是否正在接触屏幕。多视角VLM的设计旨在捕捉屏幕暴露的动态变化,提高识别的鲁棒性和准确性。

技术框架:该框架主要包含以下几个阶段:1) 数据采集:使用STT可穿戴设备采集儿童的以自我为中心的图像序列。2) 多视角VLM构建:设计多视角VLM,该模型能够处理来自不同视角的图像信息,并结合语言信息进行推理。3) 屏幕时间识别:利用训练好的多视角VLM,对图像序列进行分析,判断儿童是否正在接触屏幕。4) 结果评估:使用儿童自由活动数据集对模型进行验证,并与现有方法进行比较。

关键创新:该方法最重要的技术创新点在于多视角VLM的设计。与传统的单视角VLM相比,多视角VLM能够更好地捕捉屏幕暴露的动态变化,提高识别的鲁棒性和准确性。此外,该方法将可穿戴设备与VLM相结合,实现了对儿童屏幕时间的自动化、客观化监测。

关键设计:多视角VLM的具体结构未知,但可以推测其可能包含以下关键设计:1) 多视角特征提取模块:用于从不同视角的图像中提取视觉特征。2) 视觉-语言融合模块:用于将视觉特征与语言信息进行融合,例如使用Transformer结构。3) 动态建模模块:用于捕捉屏幕暴露的动态变化,例如使用循环神经网络(RNN)或Transformer。具体的损失函数和参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过在儿童自由活动数据集上进行验证,证明了所提出的多视角VLM方法在屏幕时间识别方面的有效性。实验结果表明,该方法显著优于现有的普通视觉语言模型和目标检测模型,具体性能提升数据未知,但摘要中明确指出是“significant improvement”。这表明该方法具有很强的实际应用潜力。

🎯 应用场景

该研究成果可应用于儿童行为研究、健康管理、教育等领域。通过准确监测儿童的屏幕时间,可以深入研究屏幕使用与儿童肥胖、身体活动、社交互动等现象之间的关系。此外,该技术还可以用于开发个性化的健康干预方案,帮助儿童养成健康的屏幕使用习惯。未来,该技术有望推广到更广泛的人群,实现对个体行为的智能化监测和管理。

📄 摘要(原文)

Being able to accurately monitor the screen exposure of young children is important for research on phenomena linked to screen use such as childhood obesity, physical activity, and social interaction. Most existing studies rely upon self-report or manual measures from bulky wearable sensors, thus lacking efficiency and accuracy in capturing quantitative screen exposure data. In this work, we developed a novel sensor informatics framework that utilizes egocentric images from a wearable sensor, termed the screen time tracker (STT), and a vision language model (VLM). In particular, we devised a multi-view VLM that takes multiple views from egocentric image sequences and interprets screen exposure dynamically. We validated our approach by using a dataset of children's free-living activities, demonstrating significant improvement over existing methods in plain vision language models and object detection models. Results supported the promise of this monitoring approach, which could optimize behavioral research on screen exposure in children's naturalistic settings.