Predictable Compression Failures: Why Language Models Actually Hallucinate

作者: Leon Chlon, Ahmed Karim, Maggie Chlon

分类: stat.ML, cs.LG

发布日期: 2025-09-14

💡 一句话要点

提出可预测的压缩失败以解决语言模型幻觉问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 语言模型 贝叶斯推断 压缩失败 幻觉现象 信息预算 随机化方法 自然语言处理

📋 核心要点

现有大型语言模型在处理可交换数据时，存在违反排列不变性的问题，导致幻觉现象的出现。
本文提出通过最小化期望条件描述长度来解决这一问题，使模型在期望上表现为贝叶斯，而非在实现上。
实验结果显示，排列分散性与模型规模呈对数关系，且通过随机化方法显著降低幻觉现象，达到接近0%的幻觉率。

📝 摘要（中文）

大型语言模型在近似贝叶斯推断时，违反了可交换数据的排列不变性。本文通过展示变换器在不同排列下最小化期望条件描述长度，解决了这一问题。我们提出了量化的马尔可夫违反界限、期望级解压法则以及可部署的规划器，实验证明排列分散性与模型规模相关，随机化剂量响应显示幻觉现象显著降低。通过预设审计，模型在高拒绝率下实现接近0%的幻觉率，提供了可预测的压缩失败框架。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在处理可交换数据时出现的幻觉现象，现有方法未能有效处理排列不变性的问题。

核心思路：通过展示变换器在不同排列下最小化期望条件描述长度，提出一种新的理解框架，使模型在期望上表现为贝叶斯推断。

技术框架：整体架构包括三个主要模块：量化马尔可夫违反界限、期望级解压法则和可部署的规划器，分别用于分析模型的表现、信息预算和决策制定。

关键创新：最重要的创新在于将幻觉现象视为可预测的压缩失败，提供了新的理论视角和实用方法，区别于传统的贝叶斯推断方法。

关键设计：在模型设计中，采用了特定的损失函数和参数设置，以优化期望条件描述长度，并通过随机化剂量响应实验验证模型的有效性。

📊 实验亮点

实验结果表明，排列分散性遵循对数关系，Qwen2-7B模型的b值约为0.377，Llama-3.1-8B模型的b值约为0.147。随机化剂量响应显示，幻觉现象每增加一个nat显著降低约0.13，通过预设审计实现接近0%的幻觉率，具有重要的实用价值。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、对话系统和信息检索等。通过提供可预测的压缩失败框架，研究成果能够帮助开发更可靠的语言模型，减少幻觉现象，提高用户体验和系统的可信度。

📄 摘要（原文）

Large language models perform near-Bayesian inference yet violate permutation invariance on exchangeable data. We resolve this by showing transformers minimize expected conditional description length (cross-entropy) over orderings, $\mathbb{E}_π[\ell(Y \mid Γ_π(X))]$, which admits a Kolmogorov-complexity interpretation up to additive constants, rather than the permutation-invariant description length $\ell(Y \mid X)$. This makes them Bayesian in expectation, not in realization. We derive (i) a Quantified Martingale Violation bound showing order-induced deviations scale as $O(\log n)$ with constants; (ii) the Expectation-level Decompression Law linking information budgets to reliability for Bernoulli predicates; and (iii) deployable planners (B2T/RoH/ISR) for answer/abstain decisions. Empirically, permutation dispersion follows $a+b\ln n$ (Qwen2-7B $b \approx 0.377$, Llama-3.1-8B $b \approx 0.147$); permutation mixtures improve ground-truth likelihood/accuracy; and randomized dose-response shows hallucinations drop by $\sim 0.13$ per additional nat. A pre-specified audit with a fixed ISR=1.0 achieves near-0\% hallucinations via calibrated refusal at 24\% abstention. The framework turns hallucinations into predictable compression failures and enables principled information budgeting.

Predictable Compression Failures: Why Language Models Actually Hallucinate

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理