ArabicNumBench: Evaluating Arabic Number Reading in Large Language Models

📄 arXiv: 2602.18776v1 📥 PDF

作者: Anas Alhumud, Abdulaziz Alhammadi, Muhammad Badruddin Khan

分类: cs.CL, cs.AI

发布日期: 2026-02-21


💡 一句话要点

ArabicNumBench:评估大型语言模型在阿拉伯语数字阅读任务中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 阿拉伯语数字阅读 大型语言模型 基准测试 链式思考 结构化输出

📋 核心要点

  1. 现有大型语言模型在阿拉伯语数字阅读理解方面能力未知,缺乏系统性的评测基准。
  2. 构建ArabicNumBench基准,包含多种数字类型和上下文,并结合不同提示策略评估模型。
  3. 实验结果表明,模型在数字准确性和结构化输出方面存在差异,为模型选择提供指导。

📝 摘要(中文)

本文提出了ArabicNumBench,一个全面的基准,用于评估大型语言模型在阿拉伯语数字阅读任务中的性能,包括东方阿拉伯-印度数字(阿拉伯文字中的0-9)和西方阿拉伯数字(0-9)。我们使用四种提示策略(零样本、零样本CoT、少样本、少样本CoT)在210个数字阅读任务上评估了来自10个提供商的71个模型,这些任务涵盖六个上下文类别:纯数字、地址、日期、数量和价格。我们的评估包含59,010个单独的测试用例,并跟踪提取方法以衡量结构化输出生成。评估显示出显著的性能差异,模型的准确率从14.29%到99.05%不等。少样本链式思考提示比零样本方法实现了高2.8倍的准确率(80.06% vs 28.76%)。一个惊人的发现是:达到精英准确率(98-99%)的模型通常产生主要为非结构化的输出,大多数响应缺乏阿拉伯语CoT标记。只有6个模型在所有测试用例中始终生成结构化输出,而大多数模型尽管具有很高的数字准确性,仍需要回退提取方法。对281种模型-策略组合的全面评估表明,数字准确性和指令遵循代表着不同的能力,为阿拉伯语数字理解建立了基线,并为生产阿拉伯语NLP系统中的模型选择提供了可操作的指导。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在阿拉伯语数字阅读任务中的性能评估问题。现有方法缺乏针对阿拉伯语数字的全面基准,无法有效衡量模型在不同上下文和数字类型下的理解能力。此外,现有评估方法通常只关注数字准确性,忽略了模型生成结构化输出的能力,这对于实际应用至关重要。

核心思路:论文的核心思路是构建一个包含多种数字类型(东方阿拉伯-印度数字和西方阿拉伯数字)和上下文(纯数字、地址、日期、数量和价格)的综合性基准ArabicNumBench。通过设计不同的提示策略(零样本、零样本CoT、少样本、少样本CoT),全面评估模型在数字准确性和结构化输出生成方面的能力。

技术框架:ArabicNumBench的评估流程主要包括以下几个阶段:1) 数据集构建:收集和整理包含不同数字类型和上下文的阿拉伯语文本数据。2) 提示策略设计:设计零样本、零样本CoT、少样本、少样本CoT四种提示策略,引导模型进行数字阅读任务。3) 模型评估:使用不同的模型和提示策略组合,在ArabicNumBench上进行评估,记录模型的数字准确性和结构化输出生成情况。4) 结果分析:分析评估结果,比较不同模型和提示策略的性能,找出模型的优势和不足。

关键创新:论文的关键创新在于构建了一个专门针对阿拉伯语数字阅读任务的综合性基准ArabicNumBench。该基准不仅包含多种数字类型和上下文,还考虑了模型生成结构化输出的能力,这对于实际应用具有重要意义。此外,论文还通过实验证明了数字准确性和指令遵循是不同的能力,为模型选择提供了新的视角。

关键设计:ArabicNumBench包含210个数字阅读任务,涵盖六个上下文类别。评估过程中,论文使用了四种提示策略,包括零样本、零样本CoT、少样本、少样本CoT。对于结构化输出生成,论文设计了专门的提取方法,用于衡量模型是否能够按照指定的格式输出结果。论文评估了来自10个提供商的71个模型,共计59,010个测试用例。

📊 实验亮点

实验结果表明,少样本链式思考提示比零样本方法实现了高2.8倍的准确率(80.06% vs 28.76%)。达到精英准确率(98-99%)的模型通常产生主要为非结构化的输出,大多数响应缺乏阿拉伯语CoT标记。只有6个模型在所有测试用例中始终生成结构化输出。这些结果表明,数字准确性和指令遵循是不同的能力。

🎯 应用场景

该研究成果可应用于各种阿拉伯语自然语言处理系统中,例如地址解析、日期提取、价格比较等。ArabicNumBench可以帮助开发者选择合适的模型,并优化模型的性能,从而提高系统的准确性和可靠性。此外,该基准还可以促进阿拉伯语数字理解领域的研究,推动相关技术的发展。

📄 摘要(原文)

We present ArabicNumBench, a comprehensive benchmark for evaluating large language models on Arabic number reading tasks across Eastern Arabic-Indic numerals (0-9 in Arabic script) and Western Arabic numerals (0-9). We evaluate 71 models from 10 providers using four prompting strategies (zero-shot, zero-shot CoT, few-shot, few-shot CoT) on 210 number reading tasks spanning six contextual categories: pure numerals, addresses, dates, quantities, and prices. Our evaluation comprises 59,010 individual test cases and tracks extraction methods to measure structured output generation. Evaluation reveals substantial performance variation, with accuracy ranging from 14.29\% to 99.05\% across models and strategies. Few-shot Chain-of-Thought prompting achieves 2.8x higher accuracy than zero-shot approaches (80.06\% vs 28.76\%). A striking finding emerges: models achieving elite accuracy (98-99\%) often produce predominantly unstructured output, with most responses lacking Arabic CoT markers. Only 6 models consistently generate structured output across all test cases, while the majority require fallback extraction methods despite high numerical accuracy. Comprehensive evaluation of 281 model-strategy combinations demonstrates that numerical accuracy and instruction-following represent distinct capabilities, establishing baselines for Arabic number comprehension and providing actionable guidance for model selection in production Arabic NLP systems.