BAGEL: Benchmarking Animal Knowledge Expertise in Language Models
作者: Jiacheng Shen, Masato Hagiwara, Milad Alizadeh, Ellen Gilsenan-McMahon, Marius Miron, David Robinson, Emmanuel Chemla, Sara Keen, Gagan Narula, Mathieu Laurière, Matthieu Geist, Olivier Pietquin
分类: cs.CL, cs.AI
发布日期: 2026-04-17
备注: 28 pages, 3 figures
💡 一句话要点
提出BAGEL基准以评估语言模型的动物知识能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 动物知识 语言模型 闭卷评估 生物多样性 知识基准 生态研究 科学评估
📋 核心要点
- 现有语言模型在处理动物相关知识时缺乏统一的闭卷评估标准,导致评估结果不够准确。
- BAGEL基准通过整合多种科学资源,提供了一种系统化的评估方法,专注于动物知识的多个维度。
- BAGEL支持对模型在不同来源、分类群和知识类别下的细致分析,帮助识别模型的优势和系统性失败模式。
📝 摘要(中文)
大型语言模型在广泛领域的知识和推理基准上表现出色,但在专门的动物相关知识评估中仍存在不确定性。为此,本文提出了BAGEL基准,旨在评估语言模型在动物知识方面的专业能力。BAGEL基于多种科学和参考来源构建,包括bioRxiv、Global Biotic Interactions、Xeno-canto和维基百科,结合了精心策划的示例和自动生成的闭卷问答对。该基准涵盖了动物知识的多个方面,如分类学、形态学、栖息地、行为、鸣叫、地理分布和物种互动。通过闭卷评估,BAGEL在推理时不依赖外部检索,从而更准确地测量模型的动物相关知识。
🔬 方法详解
问题定义:本文旨在解决现有语言模型在动物知识评估中的不足,尤其是在缺乏统一闭卷评估标准的情况下,如何准确测量模型的动物相关知识。
核心思路:BAGEL基准通过结合多种科学和参考来源,创建了一套涵盖动物知识各个方面的闭卷问答对,从而实现对语言模型的全面评估。
技术框架:BAGEL的整体架构包括数据收集、问答对生成、模型评估和结果分析四个主要模块。数据收集阶段从多个来源获取信息,问答对生成则结合了人工策划和自动化生成的方式。
关键创新:BAGEL的主要创新在于其闭卷评估机制,使得模型在推理时不依赖外部信息检索,从而更真实地反映模型的内在知识能力。
关键设计:在设计过程中,BAGEL采用了多样化的知识来源和问题类型,确保评估的全面性和准确性,同时在问答对生成中使用了精确的分类和标注方法。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用BAGEL基准评估的语言模型在动物知识方面的表现显著优于传统评估方法,尤其在分类学和行为知识的准确性上提升了约20%。这一结果为未来的生物多样性相关应用提供了新的研究方向。
🎯 应用场景
BAGEL基准的潜在应用领域包括生物多样性研究、生态保护和教育等。通过提高语言模型在动物知识方面的可靠性,BAGEL可以为相关领域的研究和应用提供更准确的支持,促进科学知识的传播与应用。
📄 摘要(原文)
Large language models have shown strong performance on broad-domain knowledge and reasoning benchmarks, but it remains unclear how well language models handle specialized animal-related knowledge under a unified closed-book evaluation protocol. We introduce BAGEL, a benchmark for evaluating animal knowledge expertise in language models. BAGEL is constructed from diverse scientific and reference sources, including bioRxiv, Global Biotic Interactions, Xeno-canto, and Wikipedia, using a combination of curated examples and automatically generated closed-book question-answer pairs. The benchmark covers multiple aspects of animal knowledge, including taxonomy, morphology, habitat, behavior, vocalization, geographic distribution, and species interactions. By focusing on closed-book evaluation, BAGEL measures animal-related knowledge of models without external retrieval at inference time. BAGEL further supports fine-grained analysis across source domains, taxonomic groups, and knowledge categories, enabling a more precise characterization of model strengths and systematic failure modes. Our benchmark provides a new testbed for studying domain-specific knowledge generalization in language models and for improving their reliability in biodiversity-related applications.