Flow Snapshot Neurons in Action: Deep Neural Networks Generalize to Biological Motion Perception

📄 arXiv: 2405.16493v2 📥 PDF

作者: Shuangpeng Han, Ziyu Wang, Mengmi Zhang

分类: cs.CV

发布日期: 2024-05-26 (更新: 2024-10-30)

🔗 代码/项目: GITHUB


💡 一句话要点

提出Motion Perceiver,提升AI模型在生物运动感知上的泛化能力

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 生物运动感知 光流快照 深度学习 泛化能力 动作识别

📋 核心要点

  1. 现有AI模型在生物运动感知任务中泛化能力不足,与人类的表现存在显著差距,限制了其在相关领域的应用。
  2. Motion Perceiver (MP) 通过学习patch-level光流快照和整合不变运动表示,实现了对生物运动的有效识别。
  3. MP在多个生物运动感知数据集上显著优于现有AI模型,top-1准确率最高提升29%,并与人类行为表现出一致性。

📝 摘要(中文)

生物运动感知(BMP)是指人类仅凭运动模式(有时仅为点光显示)来感知和识别生物行为的能力。虽然人类无需任何预先训练就能擅长这些任务,但当前AI模型在泛化性能方面表现不佳。为了弥合这一研究差距,我们提出了Motion Perceiver (MP)。MP仅依赖于视频片段的patch-level光流作为输入。在训练期间,它通过竞争性绑定机制学习典型的光流快照,并整合不变的运动表示,以预测给定视频的动作标签。在推理期间,我们评估了所有AI模型和人类在62,656个视频刺激上的泛化能力,这些刺激跨越神经科学中的24个BMP条件,使用点光显示。值得注意的是,MP优于所有现有的AI模型,在这些条件下的top-1动作识别准确率最高提升了29%。此外,我们在计算机视觉的两个标准视频数据集中对所有AI模型进行了点光显示基准测试。MP在这些情况下也表现出优越的性能。更有趣的是,通过心理物理学实验,我们发现MP以一种与人类行为相一致的方式识别生物运动。我们的数据和代码可在https://github.com/ZhangLab-DeepNeuroCogLab/MotionPerceiver获得。

🔬 方法详解

问题定义:论文旨在解决现有AI模型在生物运动感知任务中泛化能力差的问题。现有方法通常依赖于复杂的网络结构和大量的训练数据,但在面对点光显示等简化场景时,性能显著下降,无法有效捕捉生物运动的关键特征。

核心思路:论文的核心思路是利用光流快照(flow snapshots)来表示运动模式,并通过竞争性绑定机制学习具有代表性的运动原型。这种方法旨在提取运动的不变特征,从而提高模型在不同条件下的泛化能力。

技术框架:Motion Perceiver (MP) 的整体框架包括以下几个主要模块:1) 光流提取:从视频片段中提取patch-level的光流信息。2) 光流快照学习:通过竞争性绑定机制学习一组具有代表性的光流快照。3) 运动表示整合:将学习到的光流快照整合为不变的运动表示。4) 动作分类:利用运动表示预测视频的动作标签。

关键创新:最重要的技术创新点在于光流快照的学习和整合机制。传统的运动识别方法通常直接处理原始像素或高级特征,而MP通过学习光流快照,能够更有效地捕捉运动的本质特征,并提高模型的鲁棒性和泛化能力。与现有方法相比,MP更侧重于学习运动的内在结构,而不是简单地拟合训练数据。

关键设计:MP的关键设计包括:1) 使用patch-level的光流作为输入,以减少计算量并提高对局部运动的敏感性。2) 采用竞争性绑定机制来学习光流快照,确保学习到的快照具有代表性和多样性。3) 设计了一种整合机制,将光流快照整合为不变的运动表示,以提高模型对不同视角和速度的鲁棒性。具体的损失函数和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Motion Perceiver (MP) 在生物运动感知任务中取得了显著的性能提升。在24个BMP条件下的点光显示实验中,MP的top-1动作识别准确率比现有最佳AI模型提高了29%。此外,在标准视频数据集上的点光显示实验中,MP也表现出优越的性能。心理物理学实验表明,MP的识别方式与人类行为具有一致性。

🎯 应用场景

该研究成果可应用于智能监控、人机交互、康复医学等领域。例如,可以利用该模型识别异常行为、理解人类意图、辅助运动障碍患者进行康复训练。未来,该技术有望进一步发展,实现更精准、更智能的生物运动感知。

📄 摘要(原文)

Biological motion perception (BMP) refers to humans' ability to perceive and recognize the actions of living beings solely from their motion patterns, sometimes as minimal as those depicted on point-light displays. While humans excel at these tasks without any prior training, current AI models struggle with poor generalization performance. To close this research gap, we propose the Motion Perceiver (MP). MP solely relies on patch-level optical flows from video clips as inputs. During training, it learns prototypical flow snapshots through a competitive binding mechanism and integrates invariant motion representations to predict action labels for the given video. During inference, we evaluate the generalization ability of all AI models and humans on 62,656 video stimuli spanning 24 BMP conditions using point-light displays in neuroscience. Remarkably, MP outperforms all existing AI models with a maximum improvement of 29% in top-1 action recognition accuracy on these conditions. Moreover, we benchmark all AI models in point-light displays of two standard video datasets in computer vision. MP also demonstrates superior performance in these cases. More interestingly, via psychophysics experiments, we found that MP recognizes biological movements in a way that aligns with human behaviors. Our data and code are available at https://github.com/ZhangLab-DeepNeuroCogLab/MotionPerceiver.