Notation Matters: A Benchmark Study of Token-Optimized Formats in Agentic AI Systems

📄 arXiv: 2605.29676v1 📥 PDF

作者: Lorenz Kutschka, Bernhard Geiger

分类: cs.AI, cs.CL

发布日期: 2026-05-28

备注: 16 pages, 6 figures, 4 tables


💡 一句话要点

针对Agentic AI系统,评估Token优化格式TOON和TRON在降低Token开销方面的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic AI 大型语言模型 Token优化 数据格式 JSON TOON TRON

📋 核心要点

  1. Agentic AI系统中,JSON格式因其冗余结构导致Token开销大,影响LLM效率。
  2. 论文评估了TOON和TRON两种Token优化格式在Agentic循环中的性能,着重考察其Token压缩能力。
  3. 实验表明,TRON在Token减少方面表现更优,但TOON在多轮交互中存在稳定性问题。

📝 摘要(中文)

大型语言模型在Agentic AI系统中,以结构化数据的形式消耗工具模式和执行结果,并生成工具调用。JSON作为默认的交换语言,其结构元素会产生大量的Token开销,因为它最初是为应用间的交换而设计的,而非Token效率。最近的研究提出了Token优化的替代方案,如TOON(面向Token的对象表示法)和TRON(Token减少的对象表示法),作为更紧凑的替代品,但这些格式仅在孤立的理解或生成任务中进行了评估。它们在端到端Agentic循环中的Token减少是否成立仍然是一个悬而未决的问题。我们在四个Agentic基准测试(BFCL、MCPToolBenchPP、MCP-Universe、StableToolBench)和五个开放权重LLM上评估了TOON和TRON,将输入压缩与输出压缩分离,以独立测量理解和生成。TRON最多可减少27%的Token,准确率在JSON基线的14pp以内。TOON实现了高达18%的减少,但准确率损失相似,为9pp,并且还会导致多轮解析失败和大多数模型的并行工具调用输出崩溃。

🔬 方法详解

问题定义:Agentic AI系统中,大型语言模型需要频繁地解析和生成结构化数据,例如工具的schema和调用结果。JSON作为一种通用的数据交换格式,由于其冗余的语法结构(如大量的引号和分隔符),导致了较高的Token开销,降低了LLM的效率和响应速度。现有方法缺乏对Agentic循环中Token优化格式的全面评估。

核心思路:论文的核心思路是评估两种Token优化的数据格式(TOON和TRON)在实际Agentic任务中的性能。通过将输入和输出的压缩解耦,可以独立地测量LLM对不同格式的理解和生成能力。目标是找到一种既能有效减少Token数量,又能保持Agentic系统性能的替代方案。

技术框架:该研究采用了一种实验性的评估框架,包括以下几个关键步骤:1) 选择四个Agentic基准测试(BFCL、MCPToolBenchPP、MCP-Universe、StableToolBench)来模拟不同的Agentic任务。2) 选择五个开放权重的LLM作为Agentic系统的核心。3) 将Agentic系统的输入和输出分别使用JSON、TOON和TRON进行编码。4) 测量LLM在不同格式下的性能,包括Token数量、准确率和执行成功率。5) 分析不同格式对LLM理解和生成能力的影响。

关键创新:该研究的关键创新在于:1) 首次在端到端的Agentic循环中评估了Token优化格式的性能。2) 将输入压缩和输出压缩解耦,从而可以独立地测量LLM对不同格式的理解和生成能力。3) 揭示了TOON在多轮交互中存在稳定性问题,而TRON在Token减少和性能之间取得了更好的平衡。

关键设计:论文的关键设计包括:1) 使用标准化的Agentic基准测试,以确保实验结果的可重复性和可比性。2) 采用开放权重的LLM,以便研究结果可以推广到更广泛的应用场景。3) 仔细控制实验变量,例如prompt设计和超参数设置,以减少实验误差。4) 使用多种评估指标,包括Token数量、准确率和执行成功率,以全面评估不同格式的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TRON格式在Agentic基准测试中最多可减少27%的Token,同时保持了与JSON基线相近的准确率(14pp以内)。TOON格式虽然也能实现高达18%的Token减少,但在多轮交互中容易出现解析失败和输出崩溃等问题。因此,TRON在Token优化和系统稳定性之间取得了更好的平衡。

🎯 应用场景

该研究成果可应用于各种Agentic AI系统,例如智能助手、自动化工具和机器人。通过采用Token优化的数据格式,可以显著降低LLM的Token开销,提高系统的效率和响应速度,从而降低运营成本,并提升用户体验。未来的研究可以探索更多Token优化格式,并将其应用于更复杂的Agentic任务中。

📄 摘要(原文)

Large language models in Agentic AI systems consume tool schemas and execution results and emit tool invocations as structured data. The default language for that exchange, JSON, was designed for application-to-application interchange rather than token efficiency, so its structural elements impose substantial token overhead. Recent work proposes token-optimized alternatives such as TOON (Token-Oriented Object Notation) and TRON (Token Reduced Object Notation) as more compact replacements, but these formats have been evaluated only on isolated comprehension or generation tasks. Whether their token reductions hold inside end-to-end agentic loops therefore remains an open question. We evaluate TOON and TRON on four agentic benchmarks (BFCL, MCPToolBenchPP, MCP-Universe, StableToolBench) and five open-weight LLMs, decoupling input compression from output compression to measure comprehension and generation independently. TRON reduces tokens by up to 27% with accuracy within 14pp of the JSON baseline. TOON achieves up to 18% reduction at a similar 9pp accuracy cost, but additionally cascades on multi-turn parsing failures and collapses parallel tool-call output for most models.