TASE: Token Awareness and Structured Evaluation for Multilingual Language Models

📄 arXiv: 2508.05468v1 📥 PDF

作者: Chenzhuo Zhao, Xinda Wang, Yue Huang, Junting Lu, Ziqian Liu

分类: cs.CL

发布日期: 2025-08-07

🔗 代码/项目: GITHUB


💡 一句话要点

TASE:多语言模型Token感知与结构化评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多语言模型 Token感知 结构理解 基准测试 语言理解

📋 核心要点

  1. 现有大型语言模型在token级别理解和结构推理方面存在不足,限制了其在需要精确控制的应用中的表现。
  2. TASE基准通过token感知和结构理解两大类任务,全面评估LLMs在多语言环境下的token级别信息处理能力。
  3. 实验结果表明,当前LLMs在token级别推理方面仍存在明显差距,TASE为未来改进提供了诊断工具。

📝 摘要(中文)

大型语言模型(LLMs)在高层语义任务上表现出色,但在细粒度的token级别理解和结构推理方面仍有不足,而这些能力对于需要精确控制的应用至关重要。我们提出了TASE,一个综合性的基准,旨在评估LLMs跨语言感知和推理token级别信息的能力。TASE涵盖了两个核心类别下的10个任务:token感知和结构理解,覆盖中文、英语和韩语,包含一个35,927个实例的评估集和一个可扩展的合成数据生成流程用于训练。任务包括字符计数、token对齐、句法结构解析和长度约束满足。我们评估了30多个领先的商业和开源LLMs,包括O3、Claude 4、Gemini 2.5 Pro和DeepSeek-R1,并使用GRPO训练方法训练了一个定制的Qwen2.5-14B模型。结果表明,人类的表现明显优于当前的LLMs,揭示了token级别推理方面持续存在的弱点。TASE揭示了这些局限性,并为未来改进低级语言理解和跨语言泛化提供了一个新的诊断视角。我们的代码和数据集可在https://github.com/cyzcz/Tase公开获取。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在token级别理解和结构推理方面的不足。现有方法在高层语义任务上表现良好,但在处理细粒度的token信息,例如字符计数、token对齐和句法结构解析时,能力有限。这种局限性阻碍了LLMs在需要精确控制的应用中的应用。

核心思路:论文的核心思路是构建一个综合性的基准测试集TASE,用于系统性地评估LLMs在token感知和结构理解方面的能力。通过设计一系列具有挑战性的任务,TASE能够揭示LLMs在处理token级别信息时的弱点,并为未来的改进提供指导。

技术框架:TASE基准包含两个核心类别:token感知和结构理解。Token感知任务包括字符计数和token对齐等,旨在评估模型对单个token的理解能力。结构理解任务包括句法结构解析和长度约束满足等,旨在评估模型对token之间关系的理解能力。该基准包含一个35,927个实例的评估集,并提供了一个可扩展的合成数据生成流程用于训练。

关键创新:TASE的关键创新在于其全面性和多语言支持。该基准不仅覆盖了多种类型的token级别理解任务,还支持中文、英语和韩语三种语言,从而能够更全面地评估LLMs的跨语言泛化能力。此外,该基准还提供了一个可扩展的合成数据生成流程,方便研究人员进行模型训练和改进。

关键设计:TASE基准的任务设计考虑了不同语言的特点,例如中文的字符计数和韩语的形态分析。在评估过程中,论文采用了多种指标来衡量模型的性能,包括准确率、F1值等。此外,论文还使用GRPO训练方法训练了一个定制的Qwen2.5-14B模型,以验证TASE基准的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,人类在TASE基准上的表现明显优于当前领先的LLMs,揭示了LLMs在token级别推理方面存在的差距。例如,在某些任务上,人类的准确率达到90%以上,而LLMs的准确率仅为70%左右。此外,通过使用GRPO训练方法训练的定制Qwen2.5-14B模型,在TASE基准上取得了显著的性能提升,验证了该基准的有效性。

🎯 应用场景

TASE基准的潜在应用领域包括机器翻译、文本生成、代码生成等。通过提高LLMs在token级别理解和结构推理方面的能力,可以显著提升这些应用的效果。例如,在机器翻译中,更准确的token对齐可以提高翻译的质量。在代码生成中,更好的结构理解可以生成更可靠的代码。TASE的研究成果将推动LLMs在更多实际场景中的应用。

📄 摘要(原文)

While large language models (LLMs) have demonstrated remarkable performance on high-level semantic tasks, they often struggle with fine-grained, token-level understanding and structural reasoning--capabilities that are essential for applications requiring precision and control. We introduce TASE, a comprehensive benchmark designed to evaluate LLMs' ability to perceive and reason about token-level information across languages. TASE covers 10 tasks under two core categories: token awareness and structural understanding, spanning Chinese, English, and Korean, with a 35,927-instance evaluation set and a scalable synthetic data generation pipeline for training. Tasks include character counting, token alignment, syntactic structure parsing, and length constraint satisfaction. We evaluate over 30 leading commercial and open-source LLMs, including O3, Claude 4, Gemini 2.5 Pro, and DeepSeek-R1, and train a custom Qwen2.5-14B model using the GRPO training method. Results show that human performance significantly outpaces current LLMs, revealing persistent weaknesses in token-level reasoning. TASE sheds light on these limitations and provides a new diagnostic lens for future improvements in low-level language understanding and cross-lingual generalization. Our code and dataset are publicly available at https://github.com/cyzcz/Tase .