JTON: A Token-Efficient JSON Superset with Zen Grid Tabular Encoding for Large Language Models

📄 arXiv: 2604.05865v1 📥 PDF

作者: Gowthamkumar Nandakishore

分类: cs.AI, cs.PL

发布日期: 2026-04-07

备注: 20 pages, 13 figures, 14 tables. Code and test suite available at https://github.com/gowthamkumar-nandakishore/JTON


💡 一句话要点

提出JTON:一种Token高效的JSON超集,采用Zen Grid表格编码,专为大型语言模型设计。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: JSON超集 Token效率 Zen Grid 表格编码 大型语言模型

📋 核心要点

  1. 标准JSON在表格数组的每一行重复键名,浪费token,开销随行数线性增长,这是核心问题。
  2. JTON的核心思想是Zen Grid,通过将列标题提取到单行并使用分号编码值,减少了冗余,同时保留了JSON的类型系统。
  3. 实验表明,JTON在token数量上减少了15-60%,并且在LLM的理解和生成任务中表现出与JSON相当甚至更好的性能。

📝 摘要(中文)

本文提出JTON(JSON Tabular Object Notation),一种严格的JSON超集。其核心思想Zen Grid将列标题提取到单行中,并使用分号编码值,在保留JSON类型系统的同时减少冗余。针对七个真实世界领域,Zen Grid相比紧凑JSON减少了15-60%的token数量(平均28.5%;使用bare_strings时为32%)。在10个LLM上的理解测试表明,相比JSON,准确率净提升0.3个百分点:四个模型有所改进,三个模型保持稳定,三个模型略有下降。在12个LLM上的生成测试表明,在少样本和零样本设置下,句法有效性均为100%。一个Rust/PyO3参考实现增加了SIMD加速解析,速度是Python json模块的1.4倍。代码、一个包含683个向量的测试套件以及所有实验数据均已公开。

🔬 方法详解

问题定义:论文旨在解决大型语言模型处理结构化数据时,标准JSON格式因重复键名而导致的token效率低下的问题。现有方法,特别是标准JSON,在表示表格数据时,每一行都会重复列名,造成了大量的冗余,增加了处理成本和上下文长度的压力。

核心思路:JTON的核心思路是Zen Grid,它将表格数据的列标题提取到单独的一行,然后使用分号作为分隔符来表示每一行的数据。这样,列名只需要出现一次,从而显著减少了冗余token的数量。这种设计在保留JSON类型系统的同时,提高了token的利用率。

技术框架:JTON是一种JSON的超集,这意味着任何有效的JSON文档也是有效的JTON文档。Zen Grid是JTON的核心组成部分,它定义了一种新的表格数据表示方式。论文还提供了一个Rust/PyO3参考实现,该实现包含了SIMD加速的解析器,用于快速解析JTON格式的数据。整体流程包括:数据序列化为JTON格式,LLM处理JTON数据,以及JTON数据解析回原始数据结构。

关键创新:JTON最重要的技术创新点是Zen Grid编码方式,它通过将列标题提取到单行来减少冗余,从而提高了token效率。与传统的JSON格式相比,JTON在表示表格数据时更加紧凑,减少了LLM处理数据的成本和上下文长度的需求。

关键设计:JTON的关键设计包括:使用分号作为分隔符来区分不同的值,这避免了与JSON中常用的逗号产生冲突;保留JSON的类型系统,确保数据类型的一致性;提供SIMD加速的解析器,以提高解析速度。此外,论文还提供了一个包含683个向量的测试套件,用于验证JTON的正确性和性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,JTON在七个真实世界领域的数据集上,相比紧凑JSON减少了15-60%的token数量(平均28.5%;使用bare_strings时为32%)。在LLM的理解测试中,JTON的准确率与JSON相当甚至略有提升。此外,JTON的Rust/PyO3参考实现具有SIMD加速的解析器,速度是Python json模块的1.4倍。

🎯 应用场景

JTON可广泛应用于需要使用大型语言模型处理结构化数据的场景,例如数据分析、知识图谱构建、自然语言生成等。通过减少token数量,JTON可以降低LLM的使用成本,提高处理速度,并允许LLM处理更长的上下文。未来,JTON有望成为LLM处理结构化数据的标准格式之一。

📄 摘要(原文)

When LLMs process structured data, the serialization format directly affects cost and context utilization. Standard JSON wastes tokens repeating key names in every row of a tabular array--overhead that scales linearly with row count. This paper presents JTON (JSON Tabular Object Notation), a strict JSON superset whose main idea, Zen Grid, factors column headers into a single row and encodes values with semicolons, preserving JSON's type system while cutting redundancy. Across seven real-world domains, Zen Grid reduces token counts by 15-60% versus JSON compact (28.5% average; 32% with bare_strings). Comprehension tests on 10 LLMs show a net +0.3 pp accuracy gain over JSON: four models improve, three hold steady, and three dip slightly. Generation tests on 12 LLMs yield 100% syntactic validity in both few-shot and zero-shot settings. A Rust/PyO3 reference implementation adds SIMD-accelerated parsing at 1.4x the speed of Python's json module. Code, a 683-vector test suite, and all experimental data are publicly available.