DeepFace-Attention: Multimodal Face Biometrics for Attention Estimation with Application to e-Learning
作者: Roberto Daza, Luis F. Gomez, Julian Fierrez, Aythami Morales, Ruben Tolosana, Javier Ortega-Garcia
分类: cs.HC, cs.CV
发布日期: 2024-08-10 (更新: 2024-08-14)
备注: Article accepted in the IEEE Access journal. Accessible at https://ieeexplore.ieee.org/document/10633208
DOI: 10.1109/ACCESS.2024.3437291
💡 一句话要点
提出DeepFace-Attention,利用多模态面部生物特征进行注意力估计,应用于在线学习。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 注意力估计 认知负荷 多模态融合 面部生物特征 在线学习
📋 核心要点
- 现有注意力估计方法在在线学习场景下,难以有效利用多模态面部信息进行准确的认知负荷评估。
- DeepFace-Attention融合多种面部分析技术,提取行为和生理信号,量化认知负荷,实现高精度注意力估计。
- 在mEBAL2数据集上验证,该方法优于现有技术,尤其在结合全局面部特征和长时间窗口时表现更佳。
📝 摘要(中文)
本研究提出了一种创新的方法,通过对网络摄像头视频应用面部分析技术集合来估计注意力水平(认知负荷)。我们的方法在在线学习等应用中特别有用,因此我们在mEBAL2数据库(一个在在线学习环境中获取的公共多模态数据库)上训练、评估和比较了我们的方法。mEBAL2包含来自60名用户的在8个不同任务中的数据。这些任务的难度各不相同,导致他们的认知负荷发生变化。我们的方法调整了最先进的面部分析技术,以量化用户的高或低注意力形式的认知负荷。使用了几种与认知负荷相关的行为信号和生理过程,例如眨眼、心率、面部动作单元和头部姿势等。此外,我们进行了一项研究,以了解哪些单独的特征获得更好的结果,最有效的组合,探索局部和全局特征,以及临时时间间隔如何影响注意力水平估计等。我们发现,全局面部特征更适合使用分数级融合的多模态系统,特别是随着时间窗口的增加。另一方面,局部特征更适合通过神经网络训练与分数级融合方法进行融合。我们的方法优于使用公共mEBAL2基准的现有最先进的准确性。
🔬 方法详解
问题定义:论文旨在解决在线学习环境中,如何准确估计学生的注意力水平(认知负荷)的问题。现有方法可能无法充分利用面部视频中的多模态信息,例如面部动作、头部姿势、眨眼频率和心率等,导致注意力估计的准确性不足。此外,如何有效融合这些不同模态的信息也是一个挑战。
核心思路:论文的核心思路是利用深度学习技术,从面部视频中提取多种生物特征信号,并将这些信号融合起来,以更全面地反映学生的认知状态。通过分析这些特征与认知负荷之间的关系,建立一个准确的注意力估计模型。论文还探讨了局部和全局特征以及时间窗口长度对注意力估计的影响。
技术框架:该方法主要包含以下几个模块:1) 面部特征提取:利用现有的面部分析技术(例如,OpenFace)从面部视频中提取多种特征,包括面部动作单元(AU)、头部姿势、眨眼频率和心率等。2) 特征融合:将提取的多种特征进行融合,可以使用分数级融合或神经网络训练等方法。3) 注意力估计:利用融合后的特征训练一个分类器或回归器,以估计学生的注意力水平(高或低)。4) 时间窗口分析:研究不同时间窗口长度对注意力估计的影响。
关键创新:论文的关键创新在于:1) 提出了一种多模态面部生物特征融合的方法,能够更全面地反映学生的认知状态。2) 深入研究了局部和全局特征以及时间窗口长度对注意力估计的影响,为模型设计提供了指导。3) 在公开数据集mEBAL2上取得了优于现有技术的结果。
关键设计:论文中一些关键的设计包括:1) 使用OpenFace等工具提取面部特征。2) 采用分数级融合或神经网络训练等方法进行特征融合。3) 使用支持向量机(SVM)或神经网络等分类器进行注意力估计。4) 实验中探索了不同的时间窗口长度,例如几秒到几十秒。
🖼️ 关键图片
📊 实验亮点
该方法在公开的mEBAL2数据集上进行了评估,实验结果表明,该方法优于现有的最先进技术。特别地,研究发现全局面部特征更适合使用分数级融合的多模态系统,尤其是在时间窗口增加的情况下。此外,局部特征更适合通过神经网络训练与分数级融合方法进行融合。
🎯 应用场景
该研究成果可广泛应用于在线教育平台,实现对学生学习状态的实时监测与评估。通过准确估计学生的注意力水平,系统可以动态调整教学内容和节奏,提供个性化的学习体验,从而提高学习效率和效果。此外,该技术还可应用于其他需要监测认知负荷的场景,如驾驶员疲劳检测、人机交互等。
📄 摘要(原文)
This work introduces an innovative method for estimating attention levels (cognitive load) using an ensemble of facial analysis techniques applied to webcam videos. Our method is particularly useful, among others, in e-learning applications, so we trained, evaluated, and compared our approach on the mEBAL2 database, a public multi-modal database acquired in an e-learning environment. mEBAL2 comprises data from 60 users who performed 8 different tasks. These tasks varied in difficulty, leading to changes in their cognitive loads. Our approach adapts state-of-the-art facial analysis technologies to quantify the users' cognitive load in the form of high or low attention. Several behavioral signals and physiological processes related to the cognitive load are used, such as eyeblink, heart rate, facial action units, and head pose, among others. Furthermore, we conduct a study to understand which individual features obtain better results, the most efficient combinations, explore local and global features, and how temporary time intervals affect attention level estimation, among other aspects. We find that global facial features are more appropriate for multimodal systems using score-level fusion, particularly as the temporal window increases. On the other hand, local features are more suitable for fusion through neural network training with score-level fusion approaches. Our method outperforms existing state-of-the-art accuracies using the public mEBAL2 benchmark.