Machine Learning Modeling for Multi-order Human Visual Motion Processing
作者: Zitang Sun, Yen-Ju Chen, Yung-Hao Yang, Yuan Li, Shin'ya Nishida
分类: cs.CV, cs.AI, cs.LG
发布日期: 2025-01-22
💡 一句话要点
提出模拟V1-MT通路双路径模型,解决机器视觉中高阶人类视觉运动感知问题
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 视觉运动感知 高阶运动 深度神经网络 V1-MT通路 双通路模型
📋 核心要点
- 现有计算机视觉模型在感知高阶运动方面存在不足,无法像人类一样理解复杂的视觉场景。
- 该论文提出了一种双通路模型,模拟了人脑V1-MT视觉皮层通路,分别处理一阶和二阶运动。
- 通过在包含不同材料属性的运动物体数据集上训练,模型成功获得了感知二阶运动的能力。
📝 摘要(中文)
本研究旨在开发能够像人类一样感知视觉运动的机器。尽管计算机视觉(CV)领域基于深度神经网络(DNN)的模型在自然图像中准确估计光流方面取得了进展,但在架构和行为方面,CV模型与生物视觉系统之间仍然存在显著差异。这种差异包括人类感知高阶图像特征运动(二阶运动)的能力,许多CV模型由于依赖强度守恒定律而无法捕捉到这种能力。我们的模型架构模仿皮层V1-MT运动处理通路,利用可训练的运动能量传感器组和循环图网络。通过监督学习,利用各种自然视频,该模型能够复现关于一阶(基于亮度)运动感知的心理物理学和生理学发现。对于二阶运动,受到神经科学发现的启发,该模型包括一个额外的感知通路,该通路在运动能量感知之前进行非线性预处理,使用一个简单的多层3D CNN块实现。在探索大脑如何在自然环境中获得感知二阶运动能力时,我们假设二阶机制在估计物体在光学波动(如光泽表面的高光)中的鲁棒运动时至关重要。我们使用具有不同材料属性的运动物体的新型运动数据集训练了我们的双通路模型。我们发现,训练模型从非朗伯材料估计物体运动,自然地赋予了模型感知二阶运动的能力,就像人类一样。由此产生的模型有效地与生物系统对齐,同时推广到自然场景中的一阶和二阶运动现象。
🔬 方法详解
问题定义:现有计算机视觉模型,特别是基于光流估计的模型,主要依赖于亮度恒定性假设,因此难以捕捉高阶运动信息(例如,由纹理、对比度等定义的运动)。这与人类视觉系统能够有效感知高阶运动存在差距。因此,需要开发一种能够模拟人类视觉系统,有效处理高阶运动信息的模型。
核心思路:该论文的核心思路是模拟人脑视觉皮层V1-MT的运动处理通路。V1层负责提取局部运动信息,MT层负责整合这些信息以感知全局运动。针对二阶运动,引入额外的非线性预处理步骤,模拟大脑对二阶运动信号的处理方式。通过这种方式,模型能够同时处理一阶和二阶运动信息。
技术框架:该模型包含两个主要通路:一阶运动通路和二阶运动通路。一阶运动通路使用可训练的运动能量传感器组和循环图网络,类似于传统的光流估计方法。二阶运动通路在运动能量感知之前增加了一个非线性预处理模块,该模块使用一个简单的多层3D CNN块实现。两个通路的输出被整合以进行最终的运动估计。模型使用监督学习进行训练,目标是准确估计视频中的物体运动。
关键创新:该论文的关键创新在于引入了模拟人脑视觉皮层结构的双通路模型,并针对二阶运动设计了非线性预处理模块。通过这种方式,模型能够有效处理高阶运动信息,弥补了传统光流估计方法的不足。此外,该论文还提出了一个训练策略,通过在包含不同材料属性的运动物体数据集上训练,使模型能够自然地获得感知二阶运动的能力。
关键设计:二阶运动通路中的非线性预处理模块是关键设计之一,它使用一个简单的多层3D CNN块实现,用于提取二阶运动信号。损失函数的设计也至关重要,需要平衡一阶和二阶运动的估计精度。循环图网络用于整合局部运动信息,其结构和参数设置也会影响模型的性能。数据集的选择也很重要,需要包含足够多的具有不同材料属性的运动物体,以训练模型感知二阶运动的能力。
📊 实验亮点
该模型在模拟人类视觉系统感知运动方面取得了显著进展。通过在包含不同材料属性的运动物体数据集上训练,模型成功获得了感知二阶运动的能力,并且能够推广到自然场景中的一阶和二阶运动现象。该模型能够更好地解释人类视觉系统的工作机制,并为开发更智能的机器视觉系统提供了新的思路。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、视频监控等领域。通过提高机器对复杂运动场景的理解能力,可以提升机器在动态环境中的适应性和鲁棒性。例如,在自动驾驶中,能够准确感知车辆周围的运动物体,即使在光照条件复杂或物体表面反射的情况下,也能做出更安全的决策。未来,该研究还可以扩展到其他感知任务,如物体识别和场景理解。
📄 摘要(原文)
Our research aims to develop machines that learn to perceive visual motion as do humans. While recent advances in computer vision (CV) have enabled DNN-based models to accurately estimate optical flow in naturalistic images, a significant disparity remains between CV models and the biological visual system in both architecture and behavior. This disparity includes humans' ability to perceive the motion of higher-order image features (second-order motion), which many CV models fail to capture because of their reliance on the intensity conservation law. Our model architecture mimics the cortical V1-MT motion processing pathway, utilizing a trainable motion energy sensor bank and a recurrent graph network. Supervised learning employing diverse naturalistic videos allows the model to replicate psychophysical and physiological findings about first-order (luminance-based) motion perception. For second-order motion, inspired by neuroscientific findings, the model includes an additional sensing pathway with nonlinear preprocessing before motion energy sensing, implemented using a simple multilayer 3D CNN block. When exploring how the brain acquired the ability to perceive second-order motion in natural environments, in which pure second-order signals are rare, we hypothesized that second-order mechanisms were critical when estimating robust object motion amidst optical fluctuations, such as highlights on glossy surfaces. We trained our dual-pathway model on novel motion datasets with varying material properties of moving objects. We found that training to estimate object motion from non-Lambertian materials naturally endowed the model with the capacity to perceive second-order motion, as can humans. The resulting model effectively aligns with biological systems while generalizing to both first- and second-order motion phenomena in natural scenes.