Domain Generalization using Action Sequences for Egocentric Action Recognition
作者: Amirshayan Nasirimajd, Chiara Plizzari, Simone Alberto Peirone, Marco Ciccone, Giuseppe Averta, Barbara Caputo
分类: cs.CV
发布日期: 2025-06-21
备注: Accepted at Pattern Recognition Letters. 9 pages including references. Code and Data: https://github.com/Ashayan97/SeqDG
💡 一句话要点
提出SeqDG,利用动作序列提升第一视角动作识别的域泛化能力
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 域泛化 第一视角动作识别 动作序列 序列重构 跨域学习
📋 核心要点
- 第一视角动作识别受光照、视角和环境变化影响,导致模型在未见过的环境中泛化能力差。
- 利用动作序列反映用户意图的特性,提出SeqDG模型,通过序列重构和混合域训练提升泛化性。
- 在EPIC-KITCHENS-100数据集上,SeqDG在跨域动作识别上相对提升2.4%,EGTEA数据集上Top-1准确率提升0.6%。
📝 摘要(中文)
本文提出了一种针对第一视角动作识别的域泛化方法,旨在解决模型在未见过的环境中的性能下降问题。核心思想是利用动作序列在不同视觉域中反映出一致的用户意图。提出的方法SeqDG,引入了视觉-文本序列重构目标(SeqRec),利用文本和视觉输入的上下文线索来重构序列的中心动作。此外,通过在混合了来自不同域的动作序列上进行训练(SeqMix),增强模型的鲁棒性。在EGTEA和EPIC-KITCHENS-100数据集上的验证结果表明,SeqDG在未见过的环境中的跨域动作识别方面取得了显著的提升,在EPIC-KITCHENS-100上相对平均提升了2.4%,在EGTEA上实现了比SOTA模型高0.6%的Top-1准确率。
🔬 方法详解
问题定义:论文旨在解决第一视角动作识别中的域泛化问题。现有方法在训练数据和测试数据分布不一致时,性能会显著下降。具体来说,模型在训练时见过的环境(域)与测试时遇到的环境不同,导致模型无法很好地泛化到新的环境中。
核心思路:论文的核心思路是利用动作序列的上下文信息来提高模型的域泛化能力。作者认为,即使在不同的视觉域中,相同的动作序列往往反映了相似的用户意图。因此,通过学习动作序列的内在联系,可以使模型更好地理解动作的本质,从而提高其在未见过的环境中的泛化能力。
技术框架:SeqDG模型主要包含两个关键模块:SeqRec(视觉-文本序列重构)和SeqMix(混合序列训练)。SeqRec模块利用视觉和文本信息来重构动作序列的中心动作,促使模型学习动作序列的上下文关系。SeqMix模块通过混合来自不同域的动作序列进行训练,增强模型的鲁棒性,使其能够更好地适应不同的视觉环境。整体流程是先使用SeqRec目标进行预训练,然后结合SeqMix策略进行微调。
关键创新:论文的关键创新在于将动作序列的上下文信息引入到域泛化框架中。与以往主要关注于图像特征对齐或域对抗的方法不同,SeqDG通过学习动作序列的内在联系来提高模型的泛化能力。SeqRec目标和SeqMix策略的结合,使得模型能够更好地理解动作的本质,从而在未见过的环境中表现更好。
关键设计:SeqRec目标使用Transformer结构来融合视觉和文本信息,并预测中心动作的类别。损失函数采用交叉熵损失。SeqMix策略随机选择来自不同域的动作序列,并将它们混合在一起进行训练。混合比例是一个超参数,需要根据具体数据集进行调整。具体实现细节包括视觉特征提取器的选择(例如,ResNet-50)和文本嵌入模型的选择(例如,Word2Vec)。
🖼️ 关键图片
📊 实验亮点
SeqDG在EPIC-KITCHENS-100数据集上,实现了跨域动作识别的显著提升,相对平均提升了2.4%。在EGTEA数据集上,SeqDG的Top-1准确率比SOTA模型提高了0.6%。这些结果表明,SeqDG能够有效地提高模型在未见过的环境中的泛化能力,验证了动作序列在域泛化中的重要作用。
🎯 应用场景
该研究成果可应用于机器人辅助、智能家居、可穿戴设备等领域。例如,机器人可以通过理解人类的动作序列,更好地辅助人类完成任务。智能家居系统可以根据用户的动作序列,自动调整环境设置。可穿戴设备可以识别用户的日常活动,提供个性化的健康建议。该研究有助于提升人机交互的自然性和智能化水平。
📄 摘要(原文)
Recognizing human activities from visual inputs, particularly through a first-person viewpoint, is essential for enabling robots to replicate human behavior. Egocentric vision, characterized by cameras worn by observers, captures diverse changes in illumination, viewpoint, and environment. This variability leads to a notable drop in the performance of Egocentric Action Recognition models when tested in environments not seen during training. In this paper, we tackle these challenges by proposing a domain generalization approach for Egocentric Action Recognition. Our insight is that action sequences often reflect consistent user intent across visual domains. By leveraging action sequences, we aim to enhance the model's generalization ability across unseen environments. Our proposed method, named SeqDG, introduces a visual-text sequence reconstruction objective (SeqRec) that uses contextual cues from both text and visual inputs to reconstruct the central action of the sequence. Additionally, we enhance the model's robustness by training it on mixed sequences of actions from different domains (SeqMix). We validate SeqDG on the EGTEA and EPIC-KITCHENS-100 datasets. Results on EPIC-KITCHENS-100, show that SeqDG leads to +2.4% relative average improvement in cross-domain action recognition in unseen environments, and on EGTEA the model achieved +0.6% Top-1 accuracy over SOTA in intra-domain action recognition.