FIKA-Bench: From Fine-grained Recognition to Fine-Grained Knowledge Acquisition

📄 arXiv: 2605.13193v1 📥 PDF

作者: Geng Li, Yuxin Peng

分类: cs.CV

发布日期: 2026-05-13


💡 一句话要点

提出FIKA-Bench,用于评估模型在细粒度识别中的知识获取能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 细粒度识别 知识获取 多模态学习 大型语言模型 Agent benchmark 开放环境

📋 核心要点

  1. 现有细粒度识别benchmark忽略了模型主动获取外部知识的能力,无法有效评估模型在开放环境下的表现。
  2. FIKA-Bench数据集要求模型搜索、验证并利用外部证据来回答细粒度识别问题,更贴近现实应用场景。
  3. 实验表明,即使配备工具,现有LMMs在FIKA-Bench上的表现仍然很差,主要瓶颈在于实体检索和视觉判断。

📝 摘要(中文)

日常生活中的细粒度识别通常不是一个封闭式的分类问题。当遇到不熟悉的物体时,人类会主动搜索、比较视觉细节并验证证据,然后再做出判断。现有的基准测试主要评估视觉识别能力,而对这种主动的外部知识获取能力探索不足。本文研究了细粒度知识获取,即系统必须寻找、验证和使用外部证据来回答开放式的细粒度识别问题。为此,我们引入了FIKA-Bench,这是一个包含311个公共来源和真实生活实例的、具有防泄露和证据支持的数据集。为了确保高质量,每个样本都经过了前沿封闭式模型的过滤,以移除记忆化的案例,并经过审核以消除图像-答案泄露,仅保留由验证证据支持的样本。对最新的大型多模态模型(LMM)和Agent的评估表明,该任务仍然是一个巨大的挑战:最佳系统的准确率仅达到25.1%,没有模型超过30%。至关重要的是,我们发现仅仅为模型配备工具不足以弥合这一差距;Agent的失败主要是由错误的实体检索和较差的视觉判断驱动的。这些结果表明,可靠的知识获取需要更好的Agent设计,重点关注细粒度识别。

🔬 方法详解

问题定义:论文旨在解决现有细粒度识别benchmark无法有效评估模型主动获取和利用外部知识的问题。现有方法主要关注封闭环境下的视觉识别,忽略了现实世界中识别任务通常需要借助外部知识才能完成的特点。因此,现有benchmark无法真实反映模型在开放环境下的细粒度识别能力,阻碍了相关研究的进展。

核心思路:论文的核心思路是构建一个更贴近现实场景的细粒度识别benchmark,该benchmark不仅需要模型具备视觉识别能力,还需要模型能够主动搜索、验证和利用外部知识来完成识别任务。通过引入外部知识获取环节,可以更全面地评估模型在开放环境下的细粒度识别能力。

技术框架:FIKA-Bench数据集的构建流程主要包括以下几个阶段:1) 数据收集:从公共来源收集真实生活中的细粒度识别实例。2) 泄露检测:使用前沿封闭式模型过滤数据集,移除模型已经记忆的样本,防止模型直接从数据集中“作弊”。3) 证据验证:对每个样本进行人工审核,确保答案有可靠的外部证据支持,并消除图像-答案泄露。4) 数据集发布:发布经过严格筛选和验证的高质量数据集。

关键创新:FIKA-Bench的关键创新在于其对数据泄露的严格控制和对外部证据的强制要求。通过使用前沿模型进行泄露检测,可以有效防止模型通过记忆数据集来获得高分。通过要求每个答案都有可靠的外部证据支持,可以确保数据集的真实性和可靠性,并促使模型真正学习如何利用外部知识来完成识别任务。

关键设计:FIKA-Bench数据集包含311个实例,涵盖各种细粒度识别任务。每个实例都包含一张图像、一个问题和一个答案,以及支持答案的外部证据链接。数据集的构建过程中,使用了多种技术来防止数据泄露,例如使用不同的模型进行交叉验证,并对可疑样本进行人工审核。此外,数据集还提供了详细的标注信息,例如答案的来源和证据的类型,方便研究人员进行更深入的分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在FIKA-Bench上的实验结果表明,即使配备了工具,现有LMMs的表现仍然远低于人类水平,最佳模型的准确率仅为25.1%,没有模型超过30%。分析表明,Agent的失败主要是由错误的实体检索和较差的视觉判断驱动的,这表明需要更专注于细粒度识别的Agent设计。

🎯 应用场景

FIKA-Bench可以用于评估和提升大型多模态模型在开放环境下的细粒度识别能力,例如智能助手、自动驾驶、智能零售等领域。通过提高模型对细粒度物体的识别精度和知识获取能力,可以提升用户体验,降低错误率,并拓展应用场景。

📄 摘要(原文)

Fine-grained recognition in everyday life is often not a closed-book classification problem: when encountering unfamiliar objects, humans actively search, compare visual details, and verify evidence before deciding. Existing benchmarks primarily evaluate visually recognition, leaving this active external knowledge acquisition ability underexplored. We study fine-grained knowledge acquisition, where a system must seek, verify, and use external evidence to answer open-ended fine-grained recognition questions. We introduce FIKA-Bench, a leakage-aware and evidence-grounded collection of 311 public-source and real-life instances. To ensure high quality, every example is filtered against frontier closed-book models to remove memorized cases and audited to eliminate image-answer leakage, retaining only samples supported by verified evidence. Our evaluation of latest Large Multimodal Models (LMMs) and agents reveals that the task remains a formidable challenge: the best system reaches only 25.1% accuracy, with no model exceeding 30%. Crucially, we find that merely equipping models with tools is insufficient to bridge this gap; agent failures are predominantly driven by wrong entity retrieval and poor visual judgement. These results show that reliable knowledge acquisition needs better agent designs that focus on fine-grained recognition.