FOVI: A biologically-inspired foveated interface for deep vision models

作者: Nicholas M. Blauch, George A. Alvarez, Talia Konkle

分类: cs.CV, cs.NE, q-bio.NC

发布日期: 2026-02-03

🔗 代码/项目: GITHUB | HUGGINGFACE

💡 一句话要点

提出FOVI：一种受生物视觉启发的foveated接口，用于高效深度视觉模型。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction)

关键词: Foveated视觉 深度学习 卷积神经网络 主动感知 高分辨率图像处理

📋 核心要点

现有计算机视觉系统处理高分辨率图像效率低，因为它们以统一分辨率编码视觉信息。
FOVI通过模拟人类视网膜和视觉皮层，使用foveated视觉接口，实现可变分辨率的视觉信息处理。
实验表明，FOVI在计算成本远低于非foveated基线的情况下，实现了具有竞争力的性能。

📝 摘要（中文）

人类视觉是foveated的，具有可变分辨率，在视野中心达到峰值；这反映了主动感知的有效权衡，允许眼动将世界的不同部分聚焦，并与其他部分保持上下文联系。相比之下，大多数计算机视觉系统以统一的分辨率编码视觉世界，这给高效处理全视野高分辨率图像带来了挑战。我们提出了一种基于人类视网膜和初级视觉皮层的foveated视觉接口（FOVI），它将可变分辨率的视网膜状传感器阵列重新格式化为均匀密集的、类似V1的传感器流形。感受野被定义为传感器流形上的k近邻（kNN），从而可以通过一种新颖的核映射技术实现kNN卷积。我们展示了两个用例：（1）端到端的kNN卷积架构，以及（2）基础DINOv3 ViT模型的foveated适配，利用低秩适配（LoRA）。这些模型以非foveated基线的一小部分计算成本提供了具有竞争力的性能，为高分辨率自我中心视觉的高效和可扩展的主动感知开辟了道路。代码和预训练模型可在https://github.com/nblauch/fovi和https://huggingface.co/fovi-pytorch获得。

🔬 方法详解

问题定义：现有计算机视觉系统在处理高分辨率图像时，由于采用统一分辨率编码，导致计算量巨大，效率低下。尤其是在需要处理全视野图像时，这个问题更加突出。因此，需要一种更高效的视觉信息处理方法，能够在保证性能的同时，降低计算成本。

核心思路：论文的核心思路是模仿人类视觉系统中的foveation机制。人类视觉系统并非以统一分辨率感知整个视野，而是通过眼动将注意力集中在感兴趣的区域，并以高分辨率感知该区域，而周围区域则以较低分辨率感知。这种机制可以有效地减少需要处理的信息量，从而提高效率。FOVI旨在通过模拟这种机制，实现高效的视觉信息处理。

技术框架：FOVI的整体框架包括以下几个主要步骤：首先，使用可变分辨率的视网膜状传感器阵列获取图像。然后，将这些数据重新格式化为均匀密集的、类似V1的传感器流形。接下来，在传感器流形上定义感受野，并使用kNN卷积进行特征提取。最后，将提取的特征输入到下游任务中，例如图像分类或目标检测。论文展示了两种用例：一种是端到端的kNN卷积架构，另一种是DINOv3 ViT模型的foveated适配。

关键创新：该论文的关键创新在于提出了一种基于kNN卷积的foveated视觉接口FOVI。与传统的卷积神经网络不同，FOVI使用kNN来定义感受野，并使用一种新颖的核映射技术来实现kNN卷积。这种方法可以有效地利用可变分辨率的视觉信息，并降低计算成本。此外，论文还提出了将FOVI应用于现有视觉模型（例如DINOv3 ViT）的方法，从而可以方便地将FOVI集成到现有的视觉系统中。

关键设计：FOVI的关键设计包括以下几个方面：首先，传感器阵列的设计需要考虑到人类视网膜的结构，以实现合适的可变分辨率。其次，kNN卷积的核映射技术需要能够有效地将kNN信息转换为卷积核。第三，在将FOVI应用于现有视觉模型时，需要仔细调整模型的参数，以保证模型的性能。

📊 实验亮点

论文通过实验证明，FOVI在计算成本远低于非foveated基线的情况下，实现了具有竞争力的性能。例如，在DINOv3 ViT模型的foveated适配中，FOVI可以在保持性能的同时，显著降低计算量。这些结果表明，FOVI是一种高效且有效的视觉信息处理方法。

🎯 应用场景

FOVI具有广泛的应用前景，尤其是在需要处理高分辨率图像的场景中。例如，它可以应用于自动驾驶、机器人导航、视频监控等领域。通过降低计算成本，FOVI可以使这些应用更加高效和可扩展。此外，FOVI还可以应用于虚拟现实和增强现实等领域，以提高用户的视觉体验。

📄 摘要（原文）

Human vision is foveated, with variable resolution peaking at the center of a large field of view; this reflects an efficient trade-off for active sensing, allowing eye-movements to bring different parts of the world into focus with other parts of the world in context. In contrast, most computer vision systems encode the visual world at a uniform resolution, raising challenges for processing full-field high-resolution images efficiently. We propose a foveated vision interface (FOVI) based on the human retina and primary visual cortex, that reformats a variable-resolution retina-like sensor array into a uniformly dense, V1-like sensor manifold. Receptive fields are defined as k-nearest-neighborhoods (kNNs) on the sensor manifold, enabling kNN-convolution via a novel kernel mapping technique. We demonstrate two use cases: (1) an end-to-end kNN-convolutional architecture, and (2) a foveated adaptation of the foundational DINOv3 ViT model, leveraging low-rank adaptation (LoRA). These models provide competitive performance at a fraction of the computational cost of non-foveated baselines, opening pathways for efficient and scalable active sensing for high-resolution egocentric vision. Code and pre-trained models are available at https://github.com/nblauch/fovi and https://huggingface.co/fovi-pytorch.

FOVI: A biologically-inspired foveated interface for deep vision models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理