Human-AI Divergence in Ego-centric Action Recognition under Spatial and Spatiotemporal Manipulations
作者: Sadegh Rahmaniboldaji, Filip Rybansky, Quoc C. Vuong, Anya C. Hurlbert, Frank Guerin, Andrew Gilbert
分类: cs.CV, cs.AI
发布日期: 2026-03-09
💡 一句话要点
利用最小可识别区域,研究人与AI在自中心动作识别上的差异
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱六:视频提取与匹配 (Video Extraction) 支柱八:物理动画 (Physics-based Animation)
关键词: 自中心动作识别 人机对比 最小可识别区域 空间缩减 时间扰乱 特征依赖 深度学习 视频理解
📋 核心要点
- 现有动作识别模型在真实场景下,尤其是在低分辨率和遮挡等情况下,性能远低于人类。
- 该研究通过系统性地减少空间信息和扰乱时间信息,来探究人类和AI在动作识别上的差异。
- 实验结果表明,人类更依赖于稀疏的关键语义线索,而AI模型则更多依赖于上下文和中低级特征。
📝 摘要(中文)
本文旨在研究人类与先进AI模型在动作识别上的性能差距,尤其是在低分辨率、遮挡和视觉杂乱等具有挑战性的真实场景下。为了理解这种差距的来源,本文进行了一项大规模的人-AI对比研究,使用最小可识别区域(MIRCs),即人类可靠识别动作所需的最小空间或时空区域。研究使用了Epic ReduAct数据集,该数据集通过系统地空间缩减和时间扰乱36个EPIC KITCHENS视频而得来,涵盖多个空间缩减级别和时间条件。通过3000多名人类参与者和Side4Video模型评估识别性能。分析结合了定量指标(平均缩减率和识别差距)与定性分析(空间和时空因素),包括将动作分为低时间动作(LTA)和高时间动作(HTA)。结果表明,人类在从MIRCs过渡到subMIRCs时性能急剧下降,反映了对稀疏、语义关键线索(如手-对象交互)的强烈依赖。相比之下,模型的性能下降更为缓慢,并且通常依赖于上下文和中低级特征,有时甚至在空间缩减下表现出更高的置信度。在时间上,当关键空间线索被保留时,人类对扰乱保持鲁棒性,而模型通常对时间扰乱不敏感,揭示了类别依赖的时间敏感性。
🔬 方法详解
问题定义:现有动作识别模型在复杂场景下表现不佳,与人类的识别能力存在显著差距。现有方法难以理解人类识别动作的关键线索,并且对噪声和干扰的鲁棒性不足。因此,需要深入研究人类和AI在动作识别上的差异,从而指导更有效模型的开发。
核心思路:通过系统性地操纵视频的空间和时间信息,观察人类和AI模型在动作识别上的性能变化。核心在于找到人类识别动作的最小必要信息(MIRCs),并分析AI模型是否能够有效地利用这些信息。通过对比人类和AI在不同信息条件下的表现,揭示二者在特征利用上的差异。
技术框架:该研究主要包含以下几个阶段:1) 数据集构建:基于EPIC KITCHENS数据集,构建了Epic ReduAct数据集,该数据集包含不同程度的空间缩减和时间扰乱的视频。2) 人类实验:招募大量人类参与者,在不同空间和时间条件下进行动作识别测试。3) 模型评估:使用Side4Video模型在相同条件下进行动作识别测试。4) 结果分析:对比人类和模型的识别性能,分析二者在特征利用上的差异。
关键创新:该研究的关键创新在于:1) 提出了最小可识别区域(MIRCs)的概念,用于量化人类识别动作所需的最小信息量。2) 构建了Epic ReduAct数据集,该数据集可以系统性地控制空间和时间信息,从而更好地研究人类和AI在动作识别上的差异。3) 通过大规模的人-AI对比实验,揭示了人类和AI在特征利用上的本质区别。
关键设计:空间缩减通过逐步裁剪视频帧来实现,时间扰乱通过随机打乱视频帧的顺序来实现。人类实验中,采用强制选择范式,要求参与者在多个选项中选择正确的动作类别。模型评估中,使用标准的分类指标(如准确率)来评估模型的性能。此外,还使用了平均缩减率和识别差距等指标来量化人类和模型在不同条件下的表现。
🖼️ 关键图片
📊 实验亮点
实验结果表明,人类在从MIRCs过渡到subMIRCs时性能急剧下降,而Side4Video模型的性能下降更为缓慢。在某些空间缩减情况下,模型甚至表现出更高的置信度。此外,人类在关键空间线索被保留时对时间扰乱具有鲁棒性,而模型通常对时间扰乱不敏感。这些结果揭示了人类和AI在特征利用上的显著差异。
🎯 应用场景
该研究成果可应用于提升机器人和智能助手的动作识别能力,使其在复杂环境中更好地理解人类行为。通过模仿人类的识别策略,可以开发出更鲁棒、更高效的动作识别模型,从而改善人机交互体验,并促进智能监控、自动驾驶等领域的发展。
📄 摘要(原文)
Humans consistently outperform state-of-the-art AI models in action recognition, particularly in challenging real-world conditions involving low resolution, occlusion, and visual clutter. Understanding the sources of this performance gap is essential for developing more robust and human-aligned models. In this paper, we present a large-scale human-AI comparative study of egocentric action recognition using Minimal Identifiable Recognition Crops (MIRCs), defined as the smallest spatial or spatiotemporal regions sufficient for reliable human recognition. We used our previously introduced, Epic ReduAct, a systematically spatially reduced and temporally scrambled dataset derived from 36 EPIC KITCHENS videos, spanning multiple spatial reduction levels and temporal conditions. Recognition performance is evaluated using over 3,000 human participants and the Side4Video model. Our analysis combines quantitative metrics, Average Reduction Rate and Recognition Gap, with qualitative analyses of spatial (high-, mid-, and low-level visual features) and spatiotemporal factors, including a categorisation of actions into Low Temporal Actions (LTA) and High Temporal Actions (HTA). Results show that human performance exhibits sharp declines when transitioning from MIRCs to subMIRCs, reflecting a strong reliance on sparse, semantically critical cues such as hand-object interactions. In contrast, the model degrades more gradually and often relies on contextual and mid- to low-level features, sometimes even exhibiting increased confidence under spatial reduction. Temporally, humans remain robust to scrambling when key spatial cues are preserved, whereas the model often shows insensitivity to temporal disruption, revealing class-dependent temporal sensitivities.