FOVI: A biologically-inspired foveated interface for deep vision models
作者: Nicholas M. Blauch, George A. Alvarez, Talia Konkle
分类: cs.CV, cs.NE, q-bio.NC
发布日期: 2026-02-03
🔗 代码/项目: GITHUB | HUGGINGFACE
💡 一句话要点
提出FOVI:一种受生物视觉启发的foveated接口,用于高效深度视觉模型。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: Foveated视觉 深度学习 卷积神经网络 主动感知 高分辨率图像处理
📋 核心要点
- 现有计算机视觉系统处理高分辨率图像效率低,因为它们以统一分辨率编码视觉信息。
- FOVI通过模拟人类视网膜和视觉皮层,使用foveated视觉接口,实现可变分辨率的视觉信息处理。
- 实验表明,FOVI在计算成本远低于非foveated基线的情况下,实现了具有竞争力的性能。
📝 摘要(中文)
人类视觉是foveated的,具有可变分辨率,在视野中心达到峰值;这反映了主动感知的有效权衡,允许眼动将世界的不同部分聚焦,并与其他部分保持上下文联系。相比之下,大多数计算机视觉系统以统一的分辨率编码视觉世界,这给高效处理全视野高分辨率图像带来了挑战。我们提出了一种基于人类视网膜和初级视觉皮层的foveated视觉接口(FOVI),它将可变分辨率的视网膜状传感器阵列重新格式化为均匀密集的、类似V1的传感器流形。感受野被定义为传感器流形上的k近邻(kNN),从而可以通过一种新颖的核映射技术实现kNN卷积。我们展示了两个用例:(1)端到端的kNN卷积架构,以及(2)基础DINOv3 ViT模型的foveated适配,利用低秩适配(LoRA)。这些模型以非foveated基线的一小部分计算成本提供了具有竞争力的性能,为高分辨率自我中心视觉的高效和可扩展的主动感知开辟了道路。代码和预训练模型可在https://github.com/nblauch/fovi和https://huggingface.co/fovi-pytorch获得。
🔬 方法详解
问题定义:现有计算机视觉系统在处理高分辨率图像时,由于采用统一分辨率编码,导致计算量巨大,效率低下。尤其是在需要处理全视野图像时,这个问题更加突出。因此,需要一种更高效的视觉信息处理方法,能够在保证性能的同时,降低计算成本。
核心思路:论文的核心思路是模仿人类视觉系统中的foveation机制。人类视觉系统并非以统一分辨率感知整个视野,而是通过眼动将注意力集中在感兴趣的区域,并以高分辨率感知该区域,而周围区域则以较低分辨率感知。这种机制可以有效地减少需要处理的信息量,从而提高效率。FOVI旨在通过模拟这种机制,实现高效的视觉信息处理。
技术框架:FOVI的整体框架包括以下几个主要步骤:首先,使用可变分辨率的视网膜状传感器阵列获取图像。然后,将这些数据重新格式化为均匀密集的、类似V1的传感器流形。接下来,在传感器流形上定义感受野,并使用kNN卷积进行特征提取。最后,将提取的特征输入到下游任务中,例如图像分类或目标检测。论文展示了两种用例:一种是端到端的kNN卷积架构,另一种是DINOv3 ViT模型的foveated适配。
关键创新:该论文的关键创新在于提出了一种基于kNN卷积的foveated视觉接口FOVI。与传统的卷积神经网络不同,FOVI使用kNN来定义感受野,并使用一种新颖的核映射技术来实现kNN卷积。这种方法可以有效地利用可变分辨率的视觉信息,并降低计算成本。此外,论文还提出了将FOVI应用于现有视觉模型(例如DINOv3 ViT)的方法,从而可以方便地将FOVI集成到现有的视觉系统中。
关键设计:FOVI的关键设计包括以下几个方面:首先,传感器阵列的设计需要考虑到人类视网膜的结构,以实现合适的可变分辨率。其次,kNN卷积的核映射技术需要能够有效地将kNN信息转换为卷积核。第三,在将FOVI应用于现有视觉模型时,需要仔细调整模型的参数,以保证模型的性能。
📊 实验亮点
论文通过实验证明,FOVI在计算成本远低于非foveated基线的情况下,实现了具有竞争力的性能。例如,在DINOv3 ViT模型的foveated适配中,FOVI可以在保持性能的同时,显著降低计算量。这些结果表明,FOVI是一种高效且有效的视觉信息处理方法。
🎯 应用场景
FOVI具有广泛的应用前景,尤其是在需要处理高分辨率图像的场景中。例如,它可以应用于自动驾驶、机器人导航、视频监控等领域。通过降低计算成本,FOVI可以使这些应用更加高效和可扩展。此外,FOVI还可以应用于虚拟现实和增强现实等领域,以提高用户的视觉体验。
📄 摘要(原文)
Human vision is foveated, with variable resolution peaking at the center of a large field of view; this reflects an efficient trade-off for active sensing, allowing eye-movements to bring different parts of the world into focus with other parts of the world in context. In contrast, most computer vision systems encode the visual world at a uniform resolution, raising challenges for processing full-field high-resolution images efficiently. We propose a foveated vision interface (FOVI) based on the human retina and primary visual cortex, that reformats a variable-resolution retina-like sensor array into a uniformly dense, V1-like sensor manifold. Receptive fields are defined as k-nearest-neighborhoods (kNNs) on the sensor manifold, enabling kNN-convolution via a novel kernel mapping technique. We demonstrate two use cases: (1) an end-to-end kNN-convolutional architecture, and (2) a foveated adaptation of the foundational DINOv3 ViT model, leveraging low-rank adaptation (LoRA). These models provide competitive performance at a fraction of the computational cost of non-foveated baselines, opening pathways for efficient and scalable active sensing for high-resolution egocentric vision. Code and pre-trained models are available at https://github.com/nblauch/fovi and https://huggingface.co/fovi-pytorch.