LLMbench: A Comparative Close Reading Workbench for Large Language Models

📄 arXiv: 2604.15508v1 📥 PDF

作者: David M. Berry

分类: cs.CY, cs.AI

发布日期: 2026-04-16

备注: 22 pages, 12 figures


💡 一句话要点

LLMbench:用于大语言模型比较性细读的浏览器工作台

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 可解释性 概率分布 文本分析 可视化 人机交互 数字人文

📋 核心要点

  1. 现有LLM比较工具侧重定量评估,缺乏对模型输出文本深层语义和概率结构的细致分析。
  2. LLMbench通过可视化token级别的概率分布和提供多种分析模式,促进对生成文本的反事实历史的理解。
  3. 该工具强调对数概率数据在AI模型批判性研究中的重要性,并提供了一套实用的分析工具。

📝 摘要(中文)

LLMbench是一个基于浏览器的工具,用于对大型语言模型(LLM)的输出进行比较性细读。与现有的LLM比较工具(如Google PAIR的LLM Comparator)侧重于定量评估和用户评分指标不同,LLMbench面向数字人文的诠释实践。该工具将对同一提示的两个模型响应并排显示在可注释的面板中,并提供四个分析覆盖(用于token级别对数概率检查的概率、用于跨两个面板的词级别差异、用于Hyland风格元话语分析的语调以及用于突出显示语篇连接词的句子级别解析的结构),以及五个分析模式(随机变异、温度梯度、提示敏感性、token概率和跨模型差异),从而使生成文本的概率结构在token级别上清晰可见。该工具将生成的文本视为概率分布本身的研究对象,一种可能不同的文本,并提供包括连续热图、熵火花线、像素图和三维概率地形等可视化,显示每个词出现的反事实历史。本文描述了该工具的架构、其六种模式及其设计原理,并认为对数概率数据(目前在人文和社会科学对AI的解读中未得到充分利用)是生成式AI模型批判性研究的重要资源。

🔬 方法详解

问题定义:现有的大语言模型比较工具主要关注定量指标和用户评分,缺乏对模型生成文本内在机制的深入理解,例如token概率分布、反事实历史等。这限制了研究者从更深层次分析和比较不同模型的行为。

核心思路:LLMbench的核心思路是将LLM生成的文本视为一个概率分布,并提供多种可视化和分析工具,使研究者能够深入探索token级别的概率信息,理解模型生成文本的内在逻辑和潜在变异。通过比较不同模型的概率分布,可以更好地理解它们的差异和优劣。

技术框架:LLMbench是一个基于浏览器的交互式工作台,包含以下主要模块:1) 可注释的并排面板,用于显示两个模型的响应;2) 四个分析覆盖(概率、差异、语调、结构),用于提供不同维度的文本分析;3) 五个分析模式(随机变异、温度梯度、提示敏感性、token概率、跨模型差异),用于探索token级别的概率结构;4) 多种可视化工具(热图、火花线、像素图、三维地形),用于展示概率分布和反事实历史。

关键创新:LLMbench的关键创新在于其对LLM生成文本的概率结构的重视,以及提供了一套完整的工具来探索和理解这些概率信息。与传统的LLM比较工具不同,LLMbench关注的是文本的内在机制,而不是简单的定量指标。此外,该工具的可视化和交互式设计也使得复杂的概率信息更容易被理解和分析。

关键设计:LLMbench的关键设计包括:1) 使用连续热图来可视化token级别的概率分布;2) 使用熵火花线来展示文本的不确定性;3) 使用像素图来展示token之间的关系;4) 使用三维概率地形来展示反事实历史。此外,该工具还提供了多种交互式功能,例如token级别的概率检查、词级别差异比较等。

📊 实验亮点

LLMbench通过提供token级别的概率可视化和多种分析模式,揭示了LLM生成文本的内在机制。例如,通过比较不同模型的概率分布,可以发现它们在生成特定词语时的差异。此外,该工具还能够帮助研究者理解提示的敏感性,并探索模型生成文本的潜在变异。

🎯 应用场景

LLMbench可应用于多个领域,包括:1) 大语言模型的能力评估和比较;2) 模型生成文本的内在机制研究;3) 提示工程的优化;4) 生成式AI的社会影响研究。该工具能够帮助研究者更深入地理解LLM的行为,并促进AI技术的负责任发展。

📄 摘要(原文)

LLMbench is a browser-based workbench for the comparative close reading of large language model (LLM) outputs. Where existing tools for LLM comparison, such as Google PAIR's LLM Comparator are engineered for quantitative evaluation and user-rating metrics, LLMbench is oriented towards the hermeneutic practices of the digital humanities. Two model responses to the same prompt are side by side in annotatable panels with four analytical overlays (Probabilities for token-level log-probability inspection, Differences for word-level diff across the two panels, Tone for Hyland-style metadiscourse analysis, and Structure for sentence-level parsing with discourse connective highlighting), alongside five analytical modes, Stochastic Variation, Temperature Gradient, Prompt Sensitivity, Token Probabilities, and Cross-Model Divergence, that make the probabilistic structure of generated text legible at the token level. The tool treats the generated text as a research object in its own right from a probability distribution, a text that could have been otherwise, and provides visualisations including continuous heatmaps, entropy sparklines, pixel maps, and three-dimensional probability terrains, that show the counterfactual history from which each word emerged. This paper describes the tool's architecture, its six modes, and its design rationale, and argues that log-probability data, currently underused in humanistic and social-scientific readings of AI, is an important resource for a critical studies of generative AI models.