JTON: A Token-Efficient JSON Superset with Zen Grid Tabular Encoding for Large Language Models

作者: Gowthamkumar Nandakishore

分类: cs.AI, cs.PL

发布日期: 2026-04-07

备注: 20 pages, 13 figures, 14 tables. Code and test suite available at https://github.com/gowthamkumar-nandakishore/JTON

💡 一句话要点

提出JTON：一种Token高效的JSON超集，采用Zen Grid表格编码，专为大型语言模型设计。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: JSON超集 Token效率 Zen Grid 表格编码 大型语言模型

📋 核心要点

标准JSON在表格数组的每一行重复键名，浪费token，开销随行数线性增长，这是核心问题。
JTON的核心思想是Zen Grid，通过将列标题提取到单行并使用分号编码值，减少了冗余，同时保留了JSON的类型系统。
实验表明，JTON在token数量上减少了15-60%，并且在LLM的理解和生成任务中表现出与JSON相当甚至更好的性能。

📝 摘要（中文）

本文提出JTON（JSON Tabular Object Notation），一种严格的JSON超集。其核心思想Zen Grid将列标题提取到单行中，并使用分号编码值，在保留JSON类型系统的同时减少冗余。针对七个真实世界领域，Zen Grid相比紧凑JSON减少了15-60%的token数量（平均28.5%；使用bare_strings时为32%）。在10个LLM上的理解测试表明，相比JSON，准确率净提升0.3个百分点：四个模型有所改进，三个模型保持稳定，三个模型略有下降。在12个LLM上的生成测试表明，在少样本和零样本设置下，句法有效性均为100%。一个Rust/PyO3参考实现增加了SIMD加速解析，速度是Python json模块的1.4倍。代码、一个包含683个向量的测试套件以及所有实验数据均已公开。

🔬 方法详解

问题定义：论文旨在解决大型语言模型处理结构化数据时，标准JSON格式因重复键名而导致的token效率低下的问题。现有方法，特别是标准JSON，在表示表格数据时，每一行都会重复列名，造成了大量的冗余，增加了处理成本和上下文长度的压力。

核心思路：JTON的核心思路是Zen Grid，它将表格数据的列标题提取到单独的一行，然后使用分号作为分隔符来表示每一行的数据。这样，列名只需要出现一次，从而显著减少了冗余token的数量。这种设计在保留JSON类型系统的同时，提高了token的利用率。

技术框架：JTON是一种JSON的超集，这意味着任何有效的JSON文档也是有效的JTON文档。Zen Grid是JTON的核心组成部分，它定义了一种新的表格数据表示方式。论文还提供了一个Rust/PyO3参考实现，该实现包含了SIMD加速的解析器，用于快速解析JTON格式的数据。整体流程包括：数据序列化为JTON格式，LLM处理JTON数据，以及JTON数据解析回原始数据结构。

关键创新：JTON最重要的技术创新点是Zen Grid编码方式，它通过将列标题提取到单行来减少冗余，从而提高了token效率。与传统的JSON格式相比，JTON在表示表格数据时更加紧凑，减少了LLM处理数据的成本和上下文长度的需求。

关键设计：JTON的关键设计包括：使用分号作为分隔符来区分不同的值，这避免了与JSON中常用的逗号产生冲突；保留JSON的类型系统，确保数据类型的一致性；提供SIMD加速的解析器，以提高解析速度。此外，论文还提供了一个包含683个向量的测试套件，用于验证JTON的正确性和性能。

🖼️ 关键图片

📊 实验亮点

实验结果表明，JTON在七个真实世界领域的数据集上，相比紧凑JSON减少了15-60%的token数量（平均28.5%；使用bare_strings时为32%）。在LLM的理解测试中，JTON的准确率与JSON相当甚至略有提升。此外，JTON的Rust/PyO3参考实现具有SIMD加速的解析器，速度是Python json模块的1.4倍。

🎯 应用场景

JTON可广泛应用于需要使用大型语言模型处理结构化数据的场景，例如数据分析、知识图谱构建、自然语言生成等。通过减少token数量，JTON可以降低LLM的使用成本，提高处理速度，并允许LLM处理更长的上下文。未来，JTON有望成为LLM处理结构化数据的标准格式之一。

📄 摘要（原文）

When LLMs process structured data, the serialization format directly affects cost and context utilization. Standard JSON wastes tokens repeating key names in every row of a tabular array--overhead that scales linearly with row count. This paper presents JTON (JSON Tabular Object Notation), a strict JSON superset whose main idea, Zen Grid, factors column headers into a single row and encodes values with semicolons, preserving JSON's type system while cutting redundancy. Across seven real-world domains, Zen Grid reduces token counts by 15-60% versus JSON compact (28.5% average; 32% with bare_strings). Comprehension tests on 10 LLMs show a net +0.3 pp accuracy gain over JSON: four models improve, three hold steady, and three dip slightly. Generation tests on 12 LLMs yield 100% syntactic validity in both few-shot and zero-shot settings. A Rust/PyO3 reference implementation adds SIMD-accelerated parsing at 1.4x the speed of Python's json module. Code, a 683-vector test suite, and all experimental data are publicly available.

JTON: A Token-Efficient JSON Superset with Zen Grid Tabular Encoding for Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理