Lost in Sampling: Assessing Lexical Reachability in LLMs via the Word Coverage Score (WCS)
作者: Samer Awad, Javier Conde, Carlos Arriaga, Tairan Fu, Javier Coronado-Blázquez, Pedro Reviriego
分类: cs.CL, cs.AI
发布日期: 2026-05-26
备注: 15 pages, 6 figures
💡 一句话要点
提出词覆盖率评分(WCS),评估LLM采样策略对词汇丰富度的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 文本生成 采样策略 词汇丰富度 语言多样性
📋 核心要点
- 现有LLM解码策略倾向于生成重复和同质化的文本,未能充分利用模型庞大的词汇量。
- 论文提出词覆盖率评分(WCS),用于量化采样策略对低频、高信息量词汇的过滤程度。
- 实验结果表明,标准采样策略会无意中审查词汇,降低文本的词汇多样性,WCS可用于优化采样策略。
📝 摘要(中文)
大型语言模型(LLM)常因产生重复和同质化的文本而受到批评,尽管它们拥有庞大的潜在词汇量。本文研究了解码机制在抑制语言多样性方面的作用,而非侧重于模型知识和训练数据。我们提出了词覆盖率评分(WCS),该指标量化了标准采样过滤器(如Top-$p$、Top-$k$和Min-$p$)在多大程度上对上下文相关的、人类使用的词汇进行了数学上的剪枝。WCS并非评估静态知识,而是衡量低频、高信息量的人类词汇的词汇存活率,作为采样参数的函数。通过在人类撰写的语料片段上审计开放权重模型,我们识别出哪些逻辑上的词汇选择被解码器判定为不可达,即使它们存在于概率空间中。结果表明,行业标准的采样默认设置充当了无意的审查机制,将人类表达的独特纹理平滑为同质化的语篇。WCS提供了一个严格的框架,用于优化文本连贯性和词汇丰富度之间的权衡,并为在生成模型中保留人类语言的多样性提供了一种诊断工具。
🔬 方法详解
问题定义:大型语言模型在文本生成过程中,尽管拥有丰富的词汇知识,但常常生成重复、缺乏新意的文本。现有的采样方法,如Top-p和Top-k采样,为了保证生成文本的连贯性和流畅性,会过滤掉一些低频但具有信息量的词汇,导致语言表达的单一化。因此,如何评估和改善LLM生成文本的词汇丰富度是一个重要的问题。
核心思路:本文的核心思路是通过量化采样策略对词汇的过滤程度来评估LLM的词汇可达性。具体来说,论文提出了词覆盖率评分(WCS),该指标衡量了在给定上下文的情况下,人类可能使用的词汇在经过采样过滤后仍然能够被模型选择的概率。WCS越高,说明采样策略对词汇的过滤越少,模型生成的文本词汇越丰富。
技术框架:论文的技术框架主要包括以下几个步骤:1) 收集人类撰写的语料片段作为参考;2) 使用LLM对这些语料片段进行文本生成,并记录每个词汇的概率分布;3) 使用不同的采样策略(如Top-p、Top-k)对概率分布进行过滤;4) 计算WCS,即在人类语料中出现的词汇在经过采样过滤后仍然能够被模型选择的概率;5) 分析WCS与采样参数之间的关系,从而评估不同采样策略对词汇丰富度的影响。
关键创新:本文的关键创新在于提出了词覆盖率评分(WCS)这一指标,用于量化评估采样策略对词汇丰富度的影响。与以往的研究主要关注模型知识和训练数据不同,本文关注解码机制本身对语言多样性的影响。WCS提供了一种新的视角来理解LLM的文本生成过程,并为优化采样策略提供了指导。
关键设计:WCS的计算公式如下:WCS = (在人类语料中出现的词汇,且在采样过滤后仍然能够被模型选择的词汇数量) / (在人类语料中出现的词汇总数)。论文通过调整Top-p、Top-k等采样参数,观察WCS的变化,从而评估不同采样策略对词汇丰富度的影响。此外,论文还分析了不同类型的词汇(如低频词、高信息量词)的WCS,从而更深入地了解采样策略对语言多样性的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,行业标准的采样默认设置会显著降低LLM生成文本的词汇丰富度。例如,使用Top-p采样时,WCS会随着p值的减小而降低,表明采样策略过滤掉了大量的低频词汇。通过调整采样参数,可以在文本连贯性和词汇丰富度之间取得更好的平衡。该研究为优化LLM的文本生成策略提供了有力的证据。
🎯 应用场景
该研究成果可应用于优化大型语言模型的文本生成策略,提高生成文本的词汇丰富度和多样性,从而改善用户体验。此外,WCS可以作为一种诊断工具,用于评估不同LLM的语言表达能力,并指导模型的训练和改进。该研究还有助于更好地理解人类语言的特点,并将其融入到人工智能系统中。
📄 摘要(原文)
Modern Large Language Models (LLMs) are often criticized for producing repetitive and homogeneous text, despite possessing vast latent vocabularies. While previous research has focused on model knowledge and training data, we investigate the role of decoding mechanics in suppressing linguistic diversity. We introduce the Word Coverage Score (WCS), a metric that quantifies the extent to which contextually appropriate human vocabulary is mathematically pruned by standard sampling filters (e.g., Top-$p$, Top-$k$, and Min-$p$). Rather than assessing static knowledge, the WCS measures the lexical survival rate of low-frequency, high-information human words as a function of sampling parameters. By auditing open-weight models on human-authored corpus fragments, we identify which logical lexical choices are rendered unreachable by the decoder, even when they reside within the probability space. Our results provide quantitative evidence that industry-standard sampling defaults act as unintended censorship mechanisms, smoothing the unique textures of human expression into a homogenized discourse. The WCS offers a rigorous framework for optimizing the trade-off between text coherence and lexical richness, providing a diagnostic tool for preserving the diversity of human language in generative models.