NSMQ Riddles: A Benchmark of Scientific and Mathematical Riddles for Quizzing Large Language Models
作者: George Boateng, Naafi Ibrahim, Samuel John, Philemon Badu, Patrick Agyeman-Budu, Jonathan Mensah, Kevin Yeboah, William Edor, Andrew Mensa-Onumah, Nana Yeboah, Victor Wumbor-Apin Kumbol
分类: cs.CL
发布日期: 2026-05-08
备注: 15 pages. Accepted at the 27th International Conference on Artificial Intelligence in Education
💡 一句话要点
提出NSMQ Riddles科学与数学谜题基准,用于评估大语言模型在科学推理方面的能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 科学推理 数学推理 基准测试 全球南方
📋 核心要点
- 现有LLM科学教育评估主要依赖西方数据集,缺乏全球南方视角的基准。
- NSMQ Riddles基准采用加纳国家科学与数学竞赛的谜题,包含多个线索,答案为数字、单词或短语。
- 实验表明,即使是最先进的LLM,在该基准上的表现也低于优秀学生,具有挑战性。
📝 摘要(中文)
本文提出了NSMQ Riddles,这是一个新的科学与数学谜题基准,源自加纳国家科学与数学竞赛(NSMQ)。该基准旨在评估大型语言模型(LLMs)在科学教育领域的应用潜力。与以往主要基于西方数据集的评估不同,NSMQ Riddles提供了来自全球南方的数据集。此外,该基准采用开放式问答形式,而非易于评估的多项选择题。NSMQ Riddles包含11年的谜题题目(n=1.8K),每个谜题包含至少3个线索。评估结果表明,即使是最先进的LLMs在该数据集上的表现也逊于优秀的参赛学生。这项工作为全球LLMs在科学和数学教育方面的能力提供了一个新的、具有挑战性的基准。
🔬 方法详解
问题定义:论文旨在解决现有大语言模型在科学和数学教育领域评估中,缺乏来自全球南方数据集的问题,以及现有评估方法多采用多项选择题形式,难以真实反映模型推理能力的问题。现有方法主要基于西方数据集,可能存在文化偏差,并且多项选择题形式简单,不能充分评估模型的开放式推理能力。
核心思路:论文的核心思路是利用加纳国家科学与数学竞赛(NSMQ)中的谜题作为评估基准。NSMQ的谜题具有挑战性,包含多个线索,需要模型逐步推理才能得出答案。这种形式更接近于真实的科学问题解决过程,可以更有效地评估模型的推理能力。同时,NSMQ谜题来源于全球南方,可以弥补现有数据集的地域局限性。
技术框架:NSMQ Riddles基准包含11年的谜题题目(n=1.8K),每个谜题包含至少3个线索。题目涵盖生物、化学、物理和数学等学科。评估流程为:向LLM提供谜题的线索,模型根据线索给出答案。根据答案的准确性进行评分。论文使用了一系列最先进的闭源模型(GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6)和开源模型(Kimi-K2.5, DeepSeek-V3.1, GPT-OSS-120B)在不同的推理设置下进行评估。
关键创新:该论文的关键创新在于提出了一个来自全球南方的新型科学与数学谜题基准NSMQ Riddles。该基准具有以下特点:1)题目来源于真实的竞赛场景,具有挑战性;2)题目包含多个线索,需要模型逐步推理;3)题目来源于全球南方,弥补了现有数据集的地域局限性;4)采用开放式问答形式,更真实地反映模型的推理能力。
关键设计:谜题的设计模拟了真实竞赛场景,早期线索较为模糊,后续线索逐渐清晰。答案通常是数字、单词或短语,便于自动评估。评分标准根据回答线索的顺序进行加权,越早回答且正确得分越高。论文没有特别提及对LLM的训练或微调,重点在于使用该基准评估现有LLM的性能。
📊 实验亮点
实验结果表明,即使是最先进的LLMs在NSMQ Riddles基准上的表现也远低于优秀的参赛学生。这表明该基准具有很高的挑战性,可以有效地评估LLMs的科学推理能力。 具体性能数据未在摘要中详细给出,需要参考完整论文。
🎯 应用场景
NSMQ Riddles基准可用于评估和比较不同LLM在科学和数学推理方面的能力。该基准也可用于指导LLM的训练,提高其在科学教育领域的应用效果。此外,该基准可以促进全球南方在人工智能领域的发展,提高其在人工智能研究中的参与度。
📄 摘要(原文)
Large Language Models (LLMs) have shown good performance on various science educational benchmarks, demonstrating their potential for use in science and mathematics education. Yet, LLMs tend to be evaluated on science and mathematical educational datasets from the Western world, with an underrepresentation of datasets from the Global South. Furthermore, they tend to have multiple-choice answer options that are trivial to evaluate. In this work, we present NSMQ Riddles, a novel benchmark of Scientific and Mathematical Riddles from Ghana's National Science and Maths Quiz (NSMQ) competition to evaluate LLMs. The NSMQ is an annual live TV competition for senior secondary school students in Ghana that brings together the smartest high school students in Ghana who compete in teams of 2 by answering questions in biology, chemistry, physics, and math over five rounds and five stages until a winning team is crowned for that year. NSMQ Riddles consists of 11 years of riddle questions (n=1.8K) from the 5th round, with each riddle containing a minimum of 3 clues. Students compete to be the first to guess the answer on any of the clues, with earlier clues being vague and also fetching more points. The answers are usually a number, word, or short phrase, allowing for automatic evaluation. We evaluated state-of-the-art models: closed (GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6) and open models (Kimi-K2.5, DeepSeek-V3.1, GPT-OSS-120B) with high and low reasoning settings. Our evaluation shows that the dataset is challenging even for state-of-the-art LLMs, which performed worse than the best student contestants. This work contributes a novel and challenging benchmark for scientific and mathematical reasoning from the Global South towards enabling a true global benchmarking of LLMs' capabilities for science and mathematics education.