Predictable Compression Failures: Why Language Models Actually Hallucinate

📄 arXiv: 2509.11208v1 📥 PDF

作者: Leon Chlon, Ahmed Karim, Maggie Chlon

分类: stat.ML, cs.LG

发布日期: 2025-09-14


💡 一句话要点

提出可预测的压缩失败以解决语言模型幻觉问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 贝叶斯推断 压缩失败 幻觉现象 信息预算 随机化方法 自然语言处理

📋 核心要点

  1. 现有大型语言模型在处理可交换数据时,存在违反排列不变性的问题,导致幻觉现象的出现。
  2. 本文提出通过最小化期望条件描述长度来解决这一问题,使模型在期望上表现为贝叶斯,而非在实现上。
  3. 实验结果显示,排列分散性与模型规模呈对数关系,且通过随机化方法显著降低幻觉现象,达到接近0%的幻觉率。

📝 摘要(中文)

大型语言模型在近似贝叶斯推断时,违反了可交换数据的排列不变性。本文通过展示变换器在不同排列下最小化期望条件描述长度,解决了这一问题。我们提出了量化的马尔可夫违反界限、期望级解压法则以及可部署的规划器,实验证明排列分散性与模型规模相关,随机化剂量响应显示幻觉现象显著降低。通过预设审计,模型在高拒绝率下实现接近0%的幻觉率,提供了可预测的压缩失败框架。

🔬 方法详解

问题定义:本文旨在解决大型语言模型在处理可交换数据时出现的幻觉现象,现有方法未能有效处理排列不变性的问题。

核心思路:通过展示变换器在不同排列下最小化期望条件描述长度,提出一种新的理解框架,使模型在期望上表现为贝叶斯推断。

技术框架:整体架构包括三个主要模块:量化马尔可夫违反界限、期望级解压法则和可部署的规划器,分别用于分析模型的表现、信息预算和决策制定。

关键创新:最重要的创新在于将幻觉现象视为可预测的压缩失败,提供了新的理论视角和实用方法,区别于传统的贝叶斯推断方法。

关键设计:在模型设计中,采用了特定的损失函数和参数设置,以优化期望条件描述长度,并通过随机化剂量响应实验验证模型的有效性。

📊 实验亮点

实验结果表明,排列分散性遵循对数关系,Qwen2-7B模型的b值约为0.377,Llama-3.1-8B模型的b值约为0.147。随机化剂量响应显示,幻觉现象每增加一个nat显著降低约0.13,通过预设审计实现接近0%的幻觉率,具有重要的实用价值。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和信息检索等。通过提供可预测的压缩失败框架,研究成果能够帮助开发更可靠的语言模型,减少幻觉现象,提高用户体验和系统的可信度。

📄 摘要(原文)

Large language models perform near-Bayesian inference yet violate permutation invariance on exchangeable data. We resolve this by showing transformers minimize expected conditional description length (cross-entropy) over orderings, $\mathbb{E}_π[\ell(Y \mid Γ_π(X))]$, which admits a Kolmogorov-complexity interpretation up to additive constants, rather than the permutation-invariant description length $\ell(Y \mid X)$. This makes them Bayesian in expectation, not in realization. We derive (i) a Quantified Martingale Violation bound showing order-induced deviations scale as $O(\log n)$ with constants; (ii) the Expectation-level Decompression Law linking information budgets to reliability for Bernoulli predicates; and (iii) deployable planners (B2T/RoH/ISR) for answer/abstain decisions. Empirically, permutation dispersion follows $a+b\ln n$ (Qwen2-7B $b \approx 0.377$, Llama-3.1-8B $b \approx 0.147$); permutation mixtures improve ground-truth likelihood/accuracy; and randomized dose-response shows hallucinations drop by $\sim 0.13$ per additional nat. A pre-specified audit with a fixed ISR=1.0 achieves near-0\% hallucinations via calibrated refusal at 24\% abstention. The framework turns hallucinations into predictable compression failures and enables principled information budgeting.