Inference-Path Optimization via Circuit Duplication in Frozen Visual Transformers for Marine Species Classification

📄 arXiv: 2604.03428 📥 PDF

作者: Thomas Manuel Rost

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-04-07


💡 一句话要点

针对海洋物种分类,提出基于冻结视觉Transformer电路复制的推理路径优化方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 水下物种分类 视觉Transformer 电路复制 推理优化 自监督学习

📋 核心要点

  1. 水下物种分类面临标注成本高和环境差异大的挑战,限制了全监督模型的应用。
  2. 论文提出在推理阶段,通过电路复制方法优化冻结视觉Transformer的推理路径,无需微调模型权重。
  3. 实验表明,该方法在AQUA20数据集上显著提升了分类性能,甚至超越了部分全监督模型的效果。

📝 摘要(中文)

水下物种自动分类受到标注成本和环境变化的限制,这降低了完全监督模型的泛化能力。最近的研究表明,来自自监督视觉基础模型的冻结嵌入已经为海洋图像分类提供了一个强大的、标签高效的基线。本文研究了在不进行微调或更改模型权重的情况下,是否可以在推理时改进这种冻结嵌入方案。我们应用了电路复制,这是一种最初为大型语言模型提出的推理时方法,其中Transformer层的选定范围在正向传播期间被遍历两次。我们使用冻结的DINOv3嵌入,在两种设置下评估了类别不平衡的AQUA20基准:全局电路选择,其中为整个数据集选择单个重复电路;以及类别特定的电路选择,其中每个物种可能获得不同的最佳电路。两种设置都使用简单的半监督下游分类器。电路复制始终优于标准的冻结正向传播。在最大标签预算下,类别特定的选择达到了0.875的宏F1值,将与完全监督的ConvNeXt基准(0.889)的差距缩小到1.4个点,而无需任何基于梯度的训练。有四个物种超过了其完全监督的参考,其中章鱼提高了+12.1 F1点。在所有预算中,大约75%的类别更喜欢类别特定的电路,这表明存在真正的类别依赖性优势。据我们所知,这是电路复制在计算机视觉中的首次应用。

🔬 方法详解

问题定义:论文旨在解决水下物种分类中,由于标注数据有限和环境变化导致模型泛化能力差的问题。现有方法依赖大量标注数据进行训练,成本高昂,且难以适应复杂多变的水下环境。

核心思路:论文的核心思路是在推理阶段,通过“电路复制”技术,对冻结的视觉Transformer模型进行推理路径的优化,从而提升分类性能,而无需进行模型微调。这种方法旨在利用预训练模型的强大特征提取能力,并通过优化推理过程来适应特定任务。

技术框架:整体框架包括以下步骤:1) 使用自监督学习方法(如DINOv3)预训练视觉Transformer模型;2) 在推理阶段,选择Transformer模型的特定层作为“电路”,并将其复制;3) 在正向传播过程中,输入数据会两次通过该“电路”;4) 使用简单的半监督分类器对Transformer的输出进行分类。论文探索了两种电路选择策略:全局电路选择和类别特定电路选择。

关键创新:该论文的关键创新在于将电路复制这一技术从自然语言处理领域引入到计算机视觉领域,并应用于冻结的视觉Transformer模型。通过在推理时动态调整模型的计算路径,可以有效地提升模型的性能,而无需进行耗时的模型训练。

关键设计:论文的关键设计包括:1) 电路的选择:通过实验确定哪些Transformer层适合进行复制;2) 电路复制的实现:在正向传播过程中,如何有效地实现电路的重复遍历;3) 分类器的选择:选择合适的半监督分类器,以利用有限的标注数据;4) 类别特定电路选择:为每个物种选择不同的最佳电路,以适应不同物种的特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,电路复制方法在AQUA20数据集上显著提升了水下物种分类的性能。类别特定的电路选择达到了0.875的宏F1值,缩小了与完全监督的ConvNeXt基准的差距至1.4个百分点,且无需任何梯度训练。部分物种的分类性能甚至超过了完全监督模型,例如章鱼的F1值提升了12.1个百分点。大约75%的类别倾向于类别特定的电路,表明该方法具有较强的类别适应性。

🎯 应用场景

该研究成果可应用于自动化水下生物监测、海洋生态保护、渔业资源管理等领域。通过提高水下物种分类的准确性和效率,可以更有效地进行生物多样性评估、环境污染监测和渔业资源的可持续利用。该方法无需大量标注数据,降低了应用成本,具有广阔的应用前景。

📄 摘要(原文)

Automated underwater species classification is constrained by annotation cost and environmental variation that limits the transferability of fully supervised models. Recent work has shown that frozen embeddings from self-supervised vision foundation models already provide a strong label-efficient baseline for marine image classification. Here we investigate whether this frozen-embedding regime can be improved at inference time, without fine-tuning or changing model weights.We apply Circuit Duplication, an inference-time method originally proposed for Large Language Models, in which a selected range of transformer layers is traversed twice during the forward pass. We evaluate on the class-imbalanced AQUA20 benchmark using frozen DINOv3 embeddings under two settings: global circuit selection, where a single duplicated circuit is chosen for the full dataset, and class-specific circuit selection, where each species may receive a different optimal circuit. Both settings use simple semi-supervised downstream classifiers.Circuit Duplication consistently improves over the standard frozen forward pass. At the maximum label budget, class-specific selection reaches a macro F1 of 0.875, closing the gap to the fully supervised ConvNeXt benchmark (0.889) to 1.4 points without any gradient-based training. Four species exceed their fully supervised reference, with octopus improving by +12.1 F1 points. Across all budgets, roughly 75% of classes prefer a class-specific circuit, indicating a genuinely class-dependent benefit. To our knowledge, this is the first application of Circuit Duplication to computer vision.