Is my model perplexed for the right reason? Contrasting LLMs' Benchmark Behavior with Token-Level Perplexity
作者: Zoë Prins, Samuele Punzo, Frank Wildenburg, Giovanni Cinà, Sandro Pezzelle
分类: cs.CL
发布日期: 2026-03-31
💡 一句话要点
提出基于token-level困惑度的LLM可解释性框架,诊断模型推理机制
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可解释性 困惑度 语言学 推理机制
📋 核心要点
- 现有LLM评估侧重任务表现,忽略了模型推理机制的合理性,存在确认偏差风险。
- 提出基于token-level困惑度的可解释性框架,通过分析关键token对困惑度的影响来诊断模型。
- 实验表明,语言重要token影响模型行为,但不能完全解释困惑度变化,模型依赖其他启发式方法。
📝 摘要(中文)
大型语言模型(LLMs)的标准评估侧重于任务表现,但对于正确行为是否反映了适当的底层机制缺乏深入了解,存在确认偏差的风险。本文提出了一种基于token-level困惑度的简单、有原则的可解释性框架,用于测试模型是否依赖于语言相关的线索。通过比较在仅相差一个或几个“关键”token的最小句子对上的困惑度分布,该方法能够进行精确的、假设驱动的分析,而无需依赖不稳定的特征归因技术。对几个开放权重LLM在受控语言基准上的实验表明,虽然语言上重要的token会影响模型行为,但它们永远无法完全解释困惑度的变化,揭示了模型依赖于预期语言线索之外的启发式方法。
🔬 方法详解
问题定义:现有LLM评估方法主要关注任务完成度,缺乏对模型内部推理机制的有效分析。这导致我们无法判断模型是否真正理解了语言,还是仅仅依赖于一些表面上的模式或捷径。现有方法难以区分模型是基于正确的语言学知识进行推理,还是仅仅通过记忆或统计相关性来完成任务。这种情况下,即使模型在benchmark上表现良好,也可能存在潜在的风险,例如泛化能力差、对对抗样本敏感等。
核心思路:本文的核心思路是通过分析特定token对模型困惑度的影响,来推断模型是否真正依赖于语言学相关的线索进行推理。具体来说,作者设计了一系列最小句子对,这些句子对仅在一个或几个“关键”token上存在差异。通过比较模型在这些句子对上的困惑度分布,可以判断模型是否对这些关键token敏感,以及这种敏感性是否符合语言学的预期。
技术框架:该方法主要包含以下几个步骤:1) 设计包含关键token差异的最小句子对;2) 使用LLM计算每个句子对中每个token的困惑度;3) 分析句子对之间困惑度分布的差异,重点关注关键token对困惑度的影响;4) 将观察到的困惑度变化与预期的语言学行为进行比较,判断模型是否依赖于正确的语言学线索。
关键创新:该方法的主要创新在于其简洁性和可解释性。与传统的特征归因方法相比,该方法不需要复杂的计算,并且能够提供更清晰的解释。通过直接分析token-level的困惑度,可以更准确地判断模型是否真正理解了语言,而不是仅仅依赖于一些表面上的模式。此外,该方法还具有很强的可控性,可以通过设计不同的最小句子对来测试模型在不同语言现象上的表现。
关键设计:关键在于最小句子对的设计,需要确保句子对之间的差异仅限于少数几个关键token,并且这些token的差异能够反映特定的语言现象。困惑度的计算采用标准的token-level困惑度计算方法。困惑度分布的比较可以使用各种统计方法,例如t检验、KS检验等。作者没有特别强调特定的参数设置或网络结构,因为该方法可以应用于各种不同的LLM。
🖼️ 关键图片
📊 实验亮点
实验结果表明,虽然语言上重要的token会影响模型行为,但它们永远无法完全解释困惑度的变化,揭示了模型依赖于预期语言线索之外的启发式方法。这意味着即使模型在benchmark上表现良好,也可能存在潜在的风险,例如泛化能力差、对对抗样本敏感等。
🎯 应用场景
该研究成果可应用于LLM的诊断与评估,帮助开发者深入了解模型的推理机制,识别潜在的缺陷和偏差。通过该方法,可以更有针对性地改进模型,提高其泛化能力和鲁棒性。此外,该方法还可以用于教育领域,帮助学生更好地理解LLM的工作原理。
📄 摘要(原文)
Standard evaluations of Large language models (LLMs) focus on task performance, offering limited insight into whether correct behavior reflects appropriate underlying mechanisms and risking confirmation bias. We introduce a simple, principled interpretability framework based on token-level perplexity to test whether models rely on linguistically relevant cues. By comparing perplexity distributions over minimal sentence pairs differing in one or a few `pivotal' tokens, our method enables precise, hypothesis-driven analysis without relying on unstable feature-attribution techniques. Experiments on controlled linguistic benchmarks with several open-weight LLMs show that, while linguistically important tokens influence model behavior, they never fully explain perplexity shifts, revealing that models rely on heuristics other than the expected linguistic ones.