Spatio-temporal Transformers for Action Unit Classification with Event Cameras
作者: Luca Cultrera, Federico Becattini, Lorenzo Berlincioni, Claudio Ferrari, Alberto Del Bimbo
分类: cs.CV
发布日期: 2024-10-29
备注: Under review at CVIU. arXiv admin note: substantial text overlap with arXiv:2409.10213
💡 一句话要点
提出基于时空Transformer的事件相机动作单元分类方法,并构建了多模态人脸数据集FACEMORPHIC。
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 事件相机 动作单元分类 时空Transformer 多模态数据集 人脸分析 微表情识别
📋 核心要点
- 传统RGB相机在细粒度人脸分析任务中存在延迟,难以捕捉微表情等高信息量信号,限制了真实情感的推断。
- 论文提出一种时空Vision Transformer模型,利用SPT和LSA增强事件流中动作单元分类的准确性,有效捕捉时空信息。
- 构建了时间同步的多模态人脸数据集FACEMORPHIC,并通过跨模态监督,实现了无需手动标注的神经形态人脸分析。
📝 摘要(中文)
本文提出了一种新颖的时空Vision Transformer模型,该模型利用移位块令牌化(SPT)和局部自注意力(LSA)来提高事件流中动作单元分类的准确性。同时,本文还解决了现有文献中缺乏带标签的事件数据的问题,这被认为是RGB和神经形态视觉模型之间存在差距的主要原因之一。为此,作者提出了FACEMORPHIC,这是一个时间同步的多模态人脸数据集,由RGB视频和事件流组成。该数据集在视频级别上使用面部动作单元进行标注,并包含使用各种可能的应用收集的流,范围从3D形状估计到唇读。通过跨模态监督,利用3D空间中的人脸形状表示,实现了有效的神经形态人脸分析,无需手动标注视频。所提出的模型通过有效地捕获空间和时间信息,优于基线方法,这对于识别细微的面部微表情至关重要。
🔬 方法详解
问题定义:现有方法在利用事件相机进行动作单元分类时,面临缺乏带标注的事件数据,以及难以有效提取事件流中的时空特征的挑战。传统RGB相机在高帧率任务中存在延迟,难以捕捉细微的面部微表情。
核心思路:论文的核心思路是设计一种能够有效处理事件流时空信息的Transformer模型,并构建一个多模态数据集来弥补数据缺失的问题。通过移位块令牌化(SPT)和局部自注意力(LSA)增强模型对局部时空信息的感知能力,并利用RGB视频进行跨模态监督,从而提升事件相机动作单元分类的性能。
技术框架:整体框架包含数据采集、数据预处理、模型训练和评估四个阶段。首先,利用同步的RGB相机和事件相机采集人脸视频数据,并进行时间同步。然后,对事件流进行预处理,例如事件聚合。接着,将事件流输入到提出的时空Transformer模型中进行训练,并使用RGB视频的动作单元标注进行跨模态监督。最后,在测试集上评估模型的性能。
关键创新:论文的关键创新点在于提出了一个专门针对事件流设计的时空Transformer模型,该模型利用SPT和LSA来增强对局部时空信息的感知能力。此外,论文还构建了一个新的多模态人脸数据集FACEMORPHIC,为事件相机相关研究提供了宝贵的数据资源。
关键设计:SPT通过在不同patch之间进行移位操作,增强了模型对空间信息的感知能力。LSA通过限制自注意力的范围,降低了计算复杂度,并增强了模型对局部信息的关注。损失函数包括动作单元分类损失和跨模态监督损失,用于指导模型的训练。网络结构基于Vision Transformer,并针对事件流的特点进行了修改。
🖼️ 关键图片
📊 实验亮点
论文提出的时空Transformer模型在FACEMORPHIC数据集上取得了显著的性能提升,超越了现有的基线方法。通过有效捕捉空间和时间信息,模型能够更准确地识别细微的面部微表情。具体性能数据在论文中给出,表明该方法在事件相机动作单元分类任务中具有很强的竞争力。
🎯 应用场景
该研究成果可应用于情感识别、人机交互、医疗诊断等领域。例如,可以利用事件相机和所提出的模型,实时监测患者的面部表情,从而辅助医生进行疾病诊断。此外,该技术还可以用于开发更自然、更智能的人机交互系统,提升用户体验。
📄 摘要(原文)
Face analysis has been studied from different angles to infer emotion, poses, shapes, and landmarks. Traditionally RGB cameras are used, yet for fine-grained tasks standard sensors might not be up to the task due to their latency, making it impossible to record and detect micro-movements that carry a highly informative signal, which is necessary for inferring the true emotions of a subject. Event cameras have been increasingly gaining interest as a possible solution to this and similar high-frame rate tasks. We propose a novel spatiotemporal Vision Transformer model that uses Shifted Patch Tokenization (SPT) and Locality Self-Attention (LSA) to enhance the accuracy of Action Unit classification from event streams. We also address the lack of labeled event data in the literature, which can be considered one of the main causes of an existing gap between the maturity of RGB and neuromorphic vision models. Gathering data is harder in the event domain since it cannot be crawled from the web and labeling frames should take into account event aggregation rates and the fact that static parts might not be visible in certain frames. To this end, we present FACEMORPHIC, a temporally synchronized multimodal face dataset composed of RGB videos and event streams. The dataset is annotated at a video level with facial Action Units and contains streams collected with various possible applications, ranging from 3D shape estimation to lip-reading. We then show how temporal synchronization can allow effective neuromorphic face analysis without the need to manually annotate videos: we instead leverage cross-modal supervision bridging the domain gap by representing face shapes in a 3D space. Our proposed model outperforms baseline methods by effectively capturing spatial and temporal information, crucial for recognizing subtle facial micro-expressions.