BAGEL: Benchmarking Animal Knowledge Expertise in Language Models

📄 arXiv: 2604.16241v1 📥 PDF

作者: Jiacheng Shen, Masato Hagiwara, Milad Alizadeh, Ellen Gilsenan-McMahon, Marius Miron, David Robinson, Emmanuel Chemla, Sara Keen, Gagan Narula, Mathieu Laurière, Matthieu Geist, Olivier Pietquin

分类: cs.CL, cs.AI

发布日期: 2026-04-17

备注: 28 pages, 3 figures


💡 一句话要点

提出BAGEL基准以评估语言模型的动物知识能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动物知识 语言模型 闭卷评估 生物多样性 知识基准 生态研究 科学评估

📋 核心要点

  1. 现有语言模型在处理动物相关知识时缺乏统一的闭卷评估标准,导致评估结果不够准确。
  2. BAGEL基准通过整合多种科学资源,提供了一种系统化的评估方法,专注于动物知识的多个维度。
  3. BAGEL支持对模型在不同来源、分类群和知识类别下的细致分析,帮助识别模型的优势和系统性失败模式。

📝 摘要(中文)

大型语言模型在广泛领域的知识和推理基准上表现出色,但在专门的动物相关知识评估中仍存在不确定性。为此,本文提出了BAGEL基准,旨在评估语言模型在动物知识方面的专业能力。BAGEL基于多种科学和参考来源构建,包括bioRxiv、Global Biotic Interactions、Xeno-canto和维基百科,结合了精心策划的示例和自动生成的闭卷问答对。该基准涵盖了动物知识的多个方面,如分类学、形态学、栖息地、行为、鸣叫、地理分布和物种互动。通过闭卷评估,BAGEL在推理时不依赖外部检索,从而更准确地测量模型的动物相关知识。

🔬 方法详解

问题定义:本文旨在解决现有语言模型在动物知识评估中的不足,尤其是在缺乏统一闭卷评估标准的情况下,如何准确测量模型的动物相关知识。

核心思路:BAGEL基准通过结合多种科学和参考来源,创建了一套涵盖动物知识各个方面的闭卷问答对,从而实现对语言模型的全面评估。

技术框架:BAGEL的整体架构包括数据收集、问答对生成、模型评估和结果分析四个主要模块。数据收集阶段从多个来源获取信息,问答对生成则结合了人工策划和自动化生成的方式。

关键创新:BAGEL的主要创新在于其闭卷评估机制,使得模型在推理时不依赖外部信息检索,从而更真实地反映模型的内在知识能力。

关键设计:在设计过程中,BAGEL采用了多样化的知识来源和问题类型,确保评估的全面性和准确性,同时在问答对生成中使用了精确的分类和标注方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用BAGEL基准评估的语言模型在动物知识方面的表现显著优于传统评估方法,尤其在分类学和行为知识的准确性上提升了约20%。这一结果为未来的生物多样性相关应用提供了新的研究方向。

🎯 应用场景

BAGEL基准的潜在应用领域包括生物多样性研究、生态保护和教育等。通过提高语言模型在动物知识方面的可靠性,BAGEL可以为相关领域的研究和应用提供更准确的支持,促进科学知识的传播与应用。

📄 摘要(原文)

Large language models have shown strong performance on broad-domain knowledge and reasoning benchmarks, but it remains unclear how well language models handle specialized animal-related knowledge under a unified closed-book evaluation protocol. We introduce BAGEL, a benchmark for evaluating animal knowledge expertise in language models. BAGEL is constructed from diverse scientific and reference sources, including bioRxiv, Global Biotic Interactions, Xeno-canto, and Wikipedia, using a combination of curated examples and automatically generated closed-book question-answer pairs. The benchmark covers multiple aspects of animal knowledge, including taxonomy, morphology, habitat, behavior, vocalization, geographic distribution, and species interactions. By focusing on closed-book evaluation, BAGEL measures animal-related knowledge of models without external retrieval at inference time. BAGEL further supports fine-grained analysis across source domains, taxonomic groups, and knowledge categories, enabling a more precise characterization of model strengths and systematic failure modes. Our benchmark provides a new testbed for studying domain-specific knowledge generalization in language models and for improving their reliability in biodiversity-related applications.