What Really Controls Temporal Reasoning in Large Language Models: Tokenisation or Representation of Time?
作者: Gagan Bhatia, Ahmad Muhammad Isa, Maxime Peyrard, Wei Zhao
分类: cs.CL, cs.AI
发布日期: 2026-03-19
🔗 代码/项目: GITHUB
💡 一句话要点
提出MultiTempBench多语言时间推理基准,揭示LLM时间推理能力受分词质量和时间表示影响。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时间推理 大型语言模型 多语言 基准测试 Token化 时间表示 低资源语言
📋 核心要点
- 现有LLM在多语言和多种日历下的时间推理能力不足,缺乏系统性的评测基准。
- 构建多语言时间推理基准MultiTempBench,并提出多语言日期碎片率(mDFR)评估token化质量。
- 实验表明,token化质量和时间表示线性度共同影响LLM的时间推理能力,低资源语言受token化影响更大。
📝 摘要(中文)
本文提出了MultiTempBench,一个多语言时间推理基准,涵盖五种语言(英语、德语、中文、阿拉伯语和豪萨语)和多种日历惯例(公历、伊斯兰历和中国农历),包含日期算术、时区转换和时间关系抽取三个任务,共计15000个样本。这些样本通过翻译750个精心设计的英语问题,并扩展成受控的日期格式变体而构建。我们评估了20个大型语言模型,并引入了多语言日期碎片率(mDFR),该指标经过人工严重程度评级校准。同时,我们对内部时间表示进行了几何探测分析。研究发现,时间信息的token化质量是一个依赖于资源的瓶颈:在低资源语言和较少见的日历格式中,碎片化会破坏年/月/日的分割,导致准确率崩溃;而在高资源环境中,模型通常对数字级别的分割具有鲁棒性。除了token化之外,混合效应回归分析表明,时间线性是高资源语言中时间推理的最强预测因子,而碎片化是低资源语言中最强的预测因子。代码已开源。
🔬 方法详解
问题定义:现有的大型语言模型(LLMs)在时间推理方面表现出一定的能力,但缺乏在多语言和多种日历系统下的系统性评估。现有的方法没有充分考虑不同语言和日历系统在时间表示上的差异,以及这些差异对LLM时间推理能力的影响。特别是在低资源语言和非公历日历中,时间信息的表示可能更加复杂,导致LLM难以准确理解和推理。
核心思路:本文的核心思路是通过构建一个多语言、多日历的时间推理基准(MultiTempBench),来系统地评估LLM在不同语言和日历系统下的时间推理能力。同时,通过引入多语言日期碎片率(mDFR)来量化时间信息的token化质量,并结合内部表示分析,来探究token化质量和时间表示对LLM时间推理能力的影响。
技术框架:MultiTempBench包含三个任务:日期算术、时区转换和时间关系抽取。该基准覆盖五种语言(英语、德语、中文、阿拉伯语和豪萨语)和多种日历惯例(公历、伊斯兰历和中国农历)。基准中的样本通过翻译和扩展750个精心设计的英语问题,并生成受控的日期格式变体而构建。研究团队使用该基准评估了20个LLM,并结合mDFR和内部表示分析,来探究token化质量和时间表示对LLM时间推理能力的影响。
关键创新:本文的创新点在于:1) 构建了一个多语言、多日历的时间推理基准MultiTempBench,填补了现有研究的空白。2) 提出了多语言日期碎片率(mDFR),用于量化时间信息的token化质量。3) 通过实验分析,揭示了token化质量和时间表示线性度对LLM时间推理能力的影响,特别是在低资源语言中,token化质量是影响时间推理能力的关键因素。
关键设计:MultiTempBench的设计考虑了以下关键因素:1) 多样性:覆盖多种语言和日历系统,以评估LLM在不同时间表示下的泛化能力。2) 可控性:通过生成受控的日期格式变体,来研究不同格式对LLM时间推理能力的影响。3) 可解释性:结合mDFR和内部表示分析,来探究token化质量和时间表示对LLM时间推理能力的影响。mDFR的计算方式未知,内部表示分析的具体方法也未知。
📊 实验亮点
实验结果表明,token化质量对低资源语言的时间推理能力影响显著,高资源语言则对数字级别的分割具有鲁棒性。混合效应回归分析表明,时间线性是高资源语言中时间推理的最强预测因子,而碎片化是低资源语言中最强的预测因子。具体的性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于提升LLM在多语言环境下的时间理解和推理能力,例如在跨文化交流、国际贸易、多语言信息检索等领域。通过优化LLM对不同语言和日历系统下时间信息的处理,可以提高其在各种实际应用中的准确性和可靠性。未来的研究可以进一步探索如何利用这些发现来改进LLM的训练方法和架构设计。
📄 摘要(原文)
We present MultiTempBench, a multilingual temporal reasoning benchmark spanning three tasks, date arithmetic, time zone conversion, and temporal relation extraction across five languages (English, German, Chinese, Arabic, and Hausa) and multiple calendar conventions (Gregorian, Hijri, and Chinese Lunar). MultiTempBench contains $15,000$ examples built by translating $750$ curated English questions and expanding each into controlled date-format variants. We evaluate 20 LLMs and introduce the multilingual Date Fragmentation Ratio (mDFR), calibrated with human severity ratings, together with geometric-probing analyses of internal temporal representations. We find tokenisation quality of temporal artefacts is a resource-dependent bottleneck: in low-resource languages and rarer calendar formats, fragmentation disrupts Year/Month/Day separation and accuracy collapses, while high-resource settings are often robust to digit-level splitting. Beyond tokenisation, crossed mixed-effects regression shows that temporal linearity is the strongest predictor of temporal reasoning in high-resource languages, whereas fragmentation is the stronger predictor in low-resource languages. Code is available at: https://github.com/gagan3012/mtb