Token Inflation: How Dishonest Providers Can Overcharge for Large Language Model Usage

📄 arXiv: 2605.30040v1 📥 PDF

作者: Shahinul Hoque, Jinghuai Zhang, Jinyuan Sun, Fnu Suya

分类: cs.CR, cs.AI, cs.CL

发布日期: 2026-05-28


💡 一句话要点

揭示LLM按Token计费模式的欺诈风险:供应商可恶意虚报Token数量

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 token计费 欺诈检测 审计框架 可信执行环境

📋 核心要点

  1. 当前LLM按token计费模式存在固有缺陷,供应商可利用信息不对称进行欺诈性收费,用户难以有效审计。
  2. 论文核心在于揭示了供应商通过操纵token数量来虚增费用的可能性,并分析了现有审计框架的局限性。
  3. 实验表明,在不同场景下,供应商可以显著夸大token数量,最高可达1469%,严重损害用户利益。

📝 摘要(中文)

目前,商业大型语言模型(LLM)普遍采用按token计费的定价模式,因此,报告token数量的诚实性直接影响用户的支付费用。本文指出,这种计费方式在设计上难以审计:供应商为了保护其知识产权、缓解越狱攻击和保护用户隐私,隐藏了模型、分词器和执行过程,这意味着审计员只能检查供应商提供的证据。因此,审计简化为对供应商自身报告的一致性检查。我们称之为信任悖论:每次审计都必须信任某些人为因素,但当前的框架恰恰信任了供应商有最强烈动机操纵的因素。我们研究了三种最新的token审计框架,并表明具有普通商业能力的供应商可以系统地夸大计费的token数量。在最宽松的设置下,隐藏的推理使用量平均可以被夸大1469%而不会被检测到。按照目前的推理价格,这会将100美元的诚实账单变成大约1569美元的相同查询账单。即使当用户可以看到完整的推理字符串时,仅token化的模糊性仍然允许在检测阈值以下超额报告50.85%。这些结果表明,问题不在于任何特定的审计员,而在于任何证据来自被审计方的审计。恢复诚实计费将需要验证,将报告的token数量与供应商无法控制的证据联系起来,例如可信执行证明、推理的密码学证明或第三方重新执行。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)按token计费模式下,供应商可能通过虚报token数量来欺骗用户的问题。现有方法依赖于供应商提供的证据进行审计,但供应商有动机操纵这些证据,导致审计失效。这种信息不对称使得用户难以验证账单的真实性,损害了用户的利益。

核心思路:论文的核心思路是指出当前审计框架的“信任悖论”,即审计依赖于被审计方(供应商)提供的证据,而供应商有动机操纵这些证据。因此,需要一种新的审计方法,该方法依赖于供应商无法控制的证据,例如可信执行环境的证明或第三方重新执行。

技术框架:论文没有提出一个具体的审计框架,而是分析了三种现有的token审计框架,并展示了供应商如何利用这些框架的漏洞来虚报token数量。分析过程包括:1) 确定供应商可以操纵的因素,例如分词器和推理过程;2) 设计实验来模拟供应商的欺诈行为;3) 评估现有审计框架的检测能力。

关键创新:论文最重要的创新在于揭示了LLM按token计费模式下的欺诈风险,并指出了现有审计框架的根本缺陷。与现有方法不同,论文强调审计需要依赖于供应商无法控制的证据,才能保证账单的真实性。

关键设计:论文的关键设计在于实验部分,通过模拟供应商的欺诈行为,展示了现有审计框架的脆弱性。实验考虑了不同的场景,例如隐藏推理过程和token化模糊性,并评估了在这些场景下供应商可以夸大token数量的程度。论文还讨论了可能的解决方案,例如可信执行环境和第三方重新执行。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,在最宽松的设置下,供应商可以平均夸大1469%的隐藏推理使用量,而不会被检测到。即使在用户可以看到完整推理字符串的情况下,token化模糊性仍然允许供应商在检测阈值以下超额报告50.85%的token数量。这些结果表明,现有审计框架存在严重缺陷,需要更可靠的审计方法。

🎯 应用场景

该研究成果对LLM服务的定价和审计具有重要意义。可应用于改进LLM服务的计费方式,设计更可靠的审计机制,保护用户权益,促进LLM市场的健康发展。未来的研究可以探索基于可信执行环境或密码学证明的审计方法,以实现更安全、透明的LLM服务。

📄 摘要(原文)

Per-token billing is now the standard pricing model for commercial large language models (LLMs), so the honesty of reported token counts directly affects what users pay. We show that this kind of billing is hard to audit by design: providers hide the model, the tokenizer, and the execution to protect their IP, mitigate jailbreaks, and preserve user privacy, which means an auditor can only inspect proofs the provider supplies. The audit therefore reduces to a consistency check on the provider's own reports. We call this a trust paradox: every audit must trust some artifact, but current frameworks trust exactly the ones a provider has the strongest reason to manipulate. We study three recent token auditing frameworks and show that a provider with ordinary commercial capabilities can systematically inflate billed token counts. In the most permissive setting, hidden reasoning usage can be inflated by 1,469% on average without detection. At current frontier reasoning prices, that turns a \$100 honest bill into roughly a \$1,569 bill on the same query. Even when the user can see the full reasoning string, tokenization ambiguity alone still allows 50.85% over-reporting below the detection threshold. These results suggest the problem is not in any specific auditor but in any audit whose evidence comes from the audited party. Restoring honest billing will require verification that ties reported token counts to evidence the provider does not control, such as trusted execution attestation, cryptographic proofs of inference, or third-party re-execution.