The Effect of Scripts and Formats on LLM Numeracy
作者: Varshini Reddy, Craig W. Schmidt, Seth Ebner, Adam Wiemerslage, Yuval Pinter, Chris Tanner
分类: cs.CL
发布日期: 2026-01-21
💡 一句话要点
揭示LLM在不同数字脚本和格式下的计算能力退化问题,并提出改进策略
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 数值推理 数字脚本 格式化 少样本学习
📋 核心要点
- 现有LLM在处理非主流数字脚本和格式时,计算能力显著下降,这表明模型对数值的理解存在局限性。
- 论文提出通过少样本提示和显式数字映射等策略,提升LLM在不同数字脚本和格式下的数值推理能力。
- 实验结果表明,所提出的提示策略能够有效缩小LLM在不同数字脚本和格式下的性能差距,提升数值计算的鲁棒性。
📝 摘要(中文)
大型语言模型(LLM)在基础算术方面表现出令人印象深刻的能力,在标准数值任务上甚至可以媲美人类水平。然而,对于当数值表达式偏离其训练语料库中普遍存在的惯例时,这些模型的表现却鲜有关注。本文研究了LLM在各种数字脚本和格式下的数值推理能力。结果表明,当数值输入以不常见的脚本或格式呈现时,LLM的准确率会大幅下降,尽管其底层的数学推理是相同的。我们进一步证明,有针对性的提示策略,如少样本提示和显式数字映射,可以大大缩小这一差距。我们的发现突出了多语言数值推理中一个被忽视的挑战,并为使用LLM可靠地解释、操作和生成各种数字脚本和格式的数字提供了可操作的见解。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在处理不同数字脚本和格式时,数值计算能力显著下降的问题。现有方法主要依赖于模型训练语料库中常见的数字表示形式,当输入采用不常见的脚本或格式时,模型性能会大幅降低。这种现象表明,LLM对数值的理解并非完全抽象,而是受到训练数据分布的强烈影响。
核心思路:论文的核心思路是通过引入有针对性的提示策略,引导LLM更好地理解和处理不同数字脚本和格式。具体而言,论文探索了少样本提示和显式数字映射两种策略。少样本提示通过提供少量示例,帮助模型学习如何将不常见的数字表示形式映射到其熟悉的表示形式。显式数字映射则直接提供不同数字脚本之间的对应关系,从而帮助模型进行转换。
技术框架:论文的研究框架主要包括以下几个步骤:1)构建包含多种数字脚本和格式的数值计算数据集;2)评估LLM在不同数据集上的性能,确定性能下降的程度;3)设计并实施少样本提示和显式数字映射策略;4)评估提示策略对LLM性能的提升效果。整体流程旨在量化LLM在不同数字表示形式下的性能差异,并验证提示策略的有效性。
关键创新:论文的关键创新在于揭示了LLM在处理非主流数字脚本和格式时存在的性能瓶颈,并提出了有效的提示策略来缓解这一问题。与以往关注LLM在标准数值任务上的表现不同,本文关注了模型在更具挑战性的场景下的鲁棒性。此外,论文提出的少样本提示和显式数字映射策略具有通用性,可以应用于其他类似的场景。
关键设计:论文的关键设计包括:1)构建包含多种数字脚本(如阿拉伯数字、罗马数字、中文数字等)和格式(如不同的小数点表示、千位分隔符等)的数据集;2)设计合适的少样本提示,确保提示信息能够有效引导模型进行数值转换;3)设计显式数字映射,提供不同数字脚本之间的对应关系;4)选择合适的LLM进行实验,并采用标准的评估指标(如准确率)来衡量模型性能。
📊 实验亮点
实验结果表明,当数值输入以不常见的脚本或格式呈现时,LLM的准确率会大幅下降。例如,在某些数字脚本下,准确率下降超过50%。通过应用少样本提示和显式数字映射策略,可以显著提升LLM的性能,在某些情况下,准确率提升超过30%。这些结果表明,提示策略能够有效缓解LLM在处理非主流数字表示形式时存在的性能瓶颈。
🎯 应用场景
该研究成果可应用于多语言信息处理、金融数据分析、文化遗产数字化等领域。通过提升LLM在不同数字脚本和格式下的数值推理能力,可以提高模型在处理全球化数据时的准确性和可靠性,减少因数字表示差异而导致的错误,并促进跨文化交流。
📄 摘要(原文)
Large language models (LLMs) have achieved impressive proficiency in basic arithmetic, rivaling human-level performance on standard numerical tasks. However, little attention has been given to how these models perform when numerical expressions deviate from the prevailing conventions present in their training corpora. In this work, we investigate numerical reasoning across a wide range of numeral scripts and formats. We show that LLM accuracy drops substantially when numerical inputs are rendered in underrepresented scripts or formats, despite the underlying mathematical reasoning being identical. We further demonstrate that targeted prompting strategies, such as few-shot prompting and explicit numeral mapping, can greatly narrow this gap. Our findings highlight an overlooked challenge in multilingual numerical reasoning and provide actionable insights for working with LLMs to reliably interpret, manipulate, and generate numbers across diverse numeral scripts and formatting styles.