Object segmentation from common fate: Motion energy processing enables human-like zero-shot generalization to random dot stimuli

📄 arXiv: 2411.01505v1 📥 PDF

作者: Matthias Tangemann, Matthias Kümmerer, Matthias Bethge

分类: cs.CV

发布日期: 2024-11-03

备注: Accepted at NeurIPS 2024

🔗 代码/项目: GITHUB


💡 一句话要点

基于运动能量处理,实现对随机点刺激的类人零样本目标分割

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 运动分割 零样本学习 神经科学 运动能量模型 光流 格式塔原则 随机点刺激

📋 核心要点

  1. 现有深度光流模型在处理随机点运动分割任务时,泛化能力不足,无法达到人类水平。
  2. 论文采用神经科学启发的运动能量模型,模拟人类视觉皮层运动处理机制,提升分割性能。
  3. 实验表明,该模型在随机点刺激分割任务上显著优于现有光流模型,并与人类表现相匹配。

📝 摘要(中文)

人类擅长根据“共同命运”的格式塔原则检测和分割移动物体。先前的研究表明,人类能够以零样本的方式将这一原则推广到未见过的纹理或随机点。本文旨在通过评估各种光流模型和一个受神经科学启发的运动能量模型,来更好地理解这种能力的计算基础,用于随机点刺激的零样本前景-背景分割。具体来说,我们使用了Simoncelli和Heeger在1998年提出的、经过广泛验证的运动能量模型,该模型与皮层MT区的神经记录相吻合。我们发现,在不同数据集上训练的40个深度光流模型在估计随机点视频中的运动模式时表现不佳,导致前景-背景分割性能较差。相反,受神经科学启发的模型在这项任务上明显优于所有光流模型。为了与人类感知进行直接比较,我们进行了一项心理物理学研究,使用形状识别任务作为衡量人类分割性能的代理。所有最先进的光流模型都达不到人类的性能,但只有运动能量模型能够匹配人类的能力。这种受神经科学启发的模型成功地解决了当前计算机视觉模型中缺乏对随机点刺激的类人零样本泛化的问题,从而在人类物体感知的格式塔心理学和大脑中的皮层运动处理之间建立了引人注目的联系。

🔬 方法详解

问题定义:论文旨在解决计算机视觉模型在处理基于“共同命运”原则的运动目标分割时,对未见过的纹理或随机点缺乏零样本泛化能力的问题。现有深度光流模型在处理此类任务时,无法有效提取运动信息,导致分割性能不佳,与人类的感知能力存在差距。

核心思路:论文的核心思路是借鉴神经科学的研究成果,利用一个受人类视觉皮层运动处理机制启发的运动能量模型来解决上述问题。该模型模拟了人类大脑如何处理运动信息,从而能够更好地理解和分割运动目标。

技术框架:论文采用的整体框架包括:1) 使用随机点刺激生成运动视频;2) 使用运动能量模型和多个深度光流模型处理视频,提取运动信息;3) 使用提取的运动信息进行前景-背景分割;4) 通过与人类的心理物理学实验结果进行对比,评估模型的性能。

关键创新:论文最重要的技术创新点在于将神经科学的运动能量模型应用于计算机视觉的运动目标分割任务,并证明了该模型在零样本泛化能力方面优于现有的深度光流模型。这种跨学科的结合为解决计算机视觉问题提供了一种新的思路。

关键设计:论文使用了Simoncelli和Heeger在1998年提出的运动能量模型,该模型包含多个方向和空间频率的Gabor滤波器,用于提取不同方向和尺度的运动信息。模型的参数经过调整,以匹配人类视觉皮层MT区的神经记录。此外,论文还设计了一个形状识别任务,作为衡量人类分割性能的代理。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,受神经科学启发的运动能量模型在随机点刺激的零样本前景-背景分割任务上,显著优于40个深度光流模型。该模型不仅在定量指标上超越了现有方法,而且在心理物理学实验中,其性能与人类的表现相匹配,证明了其具有类人的感知能力。代码、模型和数据集已开源。

🎯 应用场景

该研究成果可应用于机器人导航、自动驾驶、视频监控等领域,提高机器在复杂动态环境中感知和理解运动目标的能力。通过模拟人类视觉系统,可以提升机器对未知环境的适应性和鲁棒性,使其能够更好地与人类交互和协作。未来的研究可以进一步探索更复杂的神经机制,并将其应用于更广泛的计算机视觉任务。

📄 摘要(原文)

Humans excel at detecting and segmenting moving objects according to the Gestalt principle of "common fate". Remarkably, previous works have shown that human perception generalizes this principle in a zero-shot fashion to unseen textures or random dots. In this work, we seek to better understand the computational basis for this capability by evaluating a broad range of optical flow models and a neuroscience inspired motion energy model for zero-shot figure-ground segmentation of random dot stimuli. Specifically, we use the extensively validated motion energy model proposed by Simoncelli and Heeger in 1998 which is fitted to neural recordings in cortex area MT. We find that a cross section of 40 deep optical flow models trained on different datasets struggle to estimate motion patterns in random dot videos, resulting in poor figure-ground segmentation performance. Conversely, the neuroscience-inspired model significantly outperforms all optical flow models on this task. For a direct comparison to human perception, we conduct a psychophysical study using a shape identification task as a proxy to measure human segmentation performance. All state-of-the-art optical flow models fall short of human performance, but only the motion energy model matches human capability. This neuroscience-inspired model successfully addresses the lack of human-like zero-shot generalization to random dot stimuli in current computer vision models, and thus establishes a compelling link between the Gestalt psychology of human object perception and cortical motion processing in the brain. Code, models and datasets are available at https://github.com/mtangemann/motion_energy_segmentation