Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

作者: Jaywon Koo, Jefferson Hernandez, Ruozhen He, Hanjie Chen, Chen Wei, Vicente Ordonez

分类: cs.CV

发布日期: 2026-04-14

💡 一句话要点

HypoExplore：基于主动假设探索的Agentic视觉识别架构发现框架

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 神经架构搜索 主动学习 大型语言模型 视觉识别 进化算法

📋 核心要点

现有神经架构搜索方法缺乏对设计空间的深入理解，难以解释架构优劣的原因。
HypoExplore通过agentic框架，模拟科学探究过程，利用LLM生成假设并主动探索架构设计空间。
实验表明，HypoExplore在多个数据集上发现高性能架构，并能学习可迁移的设计原则。

📝 摘要（中文）

本文提出了一种名为HypoExplore的agentic框架，它将视觉识别的神经架构发现形式化为一个假设驱动的科学探究过程。给定人为指定的高级研究方向，HypoExplore通过进化分支来构思、实现、评估和改进神经架构。新的假设由大型语言模型创建，该模型选择一个父假设进行构建，并由一种双重策略指导，该策略平衡了对已验证原则的利用和对不确定原则的解决。该框架维护一个记录所有提议架构谱系的轨迹树，以及一个主动跟踪通过实验证据获得的置信度分数的假设记忆库。在每次实验后，多个反馈代理从不同角度分析结果，并将他们的发现整合到假设置信度更新中。该框架在CIFAR-10上发现轻量级视觉架构的实验中进行了测试，最佳架构的准确率达到了94.11%，而根节点基线的准确率仅为18.91%，并且可以推广到CIFAR-100和Tiny-ImageNet。此外，本文还通过在MedMNIST上进行独立的架构发现运行，证明了该框架在特定领域的适用性，并取得了最先进的性能。结果表明，随着证据的积累，假设置信度分数越来越具有预测性，并且学习到的原则可以在独立的进化谱系中转移，这表明HypoExplore不仅可以发现更强大的架构，还可以帮助建立对设计空间的真正理解。

🔬 方法详解

问题定义：神经架构搜索（NAS）旨在自动发现高性能的神经网络架构。然而，现有的NAS方法通常是黑盒优化，缺乏对设计空间的理解，难以解释为什么某些架构比其他架构更好。这限制了NAS的泛化能力和可解释性。

核心思路：HypoExplore的核心思想是将神经架构搜索视为一个科学探究过程。通过模拟科学家提出假设、设计实验、分析结果并更新假设的过程，HypoExplore能够主动探索架构设计空间，并逐步建立对设计空间的理解。利用大型语言模型（LLM）生成新的架构假设，并根据实验结果更新假设的置信度。

技术框架：HypoExplore框架包含以下主要模块：1) 假设生成器：使用LLM基于已有的架构假设生成新的架构假设。2) 架构评估器：对生成的架构进行训练和评估，获得性能指标。3) 反馈代理：分析评估结果，从不同角度（如准确率、参数量、计算复杂度）提供反馈。4) 假设记忆库：存储所有提出的架构假设及其置信度分数。5) 轨迹树：记录架构假设的演化谱系。整个流程是一个迭代过程，不断生成、评估和改进架构假设。

关键创新：HypoExplore的关键创新在于将神经架构搜索形式化为一个假设驱动的科学探究过程。通过引入LLM和反馈代理，HypoExplore能够主动探索架构设计空间，并学习可解释的设计原则。与传统的NAS方法相比，HypoExplore更注重对设计空间的理解，而不仅仅是找到一个最优架构。

关键设计：HypoExplore使用双重策略来指导假设生成：1) 利用策略：基于已验证的原则生成新的架构假设。2) 探索策略：尝试解决不确定性，探索未知的架构设计空间。假设记忆库使用置信度分数来衡量每个架构假设的可信度。反馈代理根据评估结果更新置信度分数。轨迹树用于跟踪架构假设的演化过程，并支持知识迁移。

🖼️ 关键图片

📊 实验亮点

在CIFAR-10数据集上，HypoExplore发现的最佳架构达到了94.11%的准确率，相比于18.91%的初始基线有显著提升。该架构也成功泛化到CIFAR-100和Tiny-ImageNet数据集。在MedMNIST数据集上，HypoExplore取得了state-of-the-art的性能。实验还表明，随着证据的积累，假设置信度分数越来越具有预测性，并且学习到的原则可以在独立的进化谱系中转移。

🎯 应用场景

HypoExplore可应用于各种视觉识别任务的神经架构自动设计，尤其适用于资源受限的场景，例如移动设备和嵌入式系统。该框架还可以用于特定领域的架构优化，例如医学图像分析。通过学习可解释的设计原则，HypoExplore有助于提升神经架构设计的效率和可解释性，并加速AI在各个领域的应用。

📄 摘要（原文）

We introduce HypoExplore, an agentic framework that formulates neural architecture discovery for visual recognition as a hypothesis-driven scientific inquiry. Given a human-specified high-level research direction, HypoExplore ideates, implements, evaluates, and improves neural architectures through evolutionary branching. New hypotheses are created using a large language model by selecting a parent hypothesis to build upon, guided by a dual strategy that balances exploiting validated principles with resolving uncertain ones. Our proposed framework maintains a Trajectory Tree that records the lineage of all proposed architectures, and a Hypothesis Memory Bank that actively tracks confidence scores acquired through experimental evidence. After each experiment, multiple feedback agents analyze the results from different perspectives and consolidate their findings into hypothesis confidence updates. Our framework is tested on discovering lightweight vision architectures on CIFAR-10, with the best achieving 94.11% accuracy evolved from a root node baseline that starts at 18.91%, and generalizes to CIFAR-100 and Tiny-ImageNet. We further demonstrate applicability to a specialized domain by conducting independent architecture discovery runs on MedMNIST, which yield a state-of-the-art performance. We show that hypothesis confidence scores grow increasingly predictive as evidence accumulates, and that the learned principles transfer across independent evolutionary lineages, suggesting that HypoExplore not only discovers stronger architectures, but can help build a genuine understanding of the design space.

Agentic Discovery with Active Hypothesis Exploration for Visual Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理