A Penalty Goes a Long Way: Measuring Lexical Diversity in Synthetic Texts Under Prompt-Influenced Length Variations
作者: Vijeta Deshpande, Ishita Dasgupta, Uttaran Bhattacharya, Somdeb Sarkhel, Saayan Mitra, Anna Rumshisky
分类: cs.CL
发布日期: 2025-07-20
💡 一句话要点
提出Penalty-Adjusted Type-Token Ratio (PATTR),解决提示影响下合成文本长度变化导致的词汇多样性度量偏差问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 词汇多样性 大型语言模型 合成文本 文本长度偏差 提示工程
📋 核心要点
- 现有词汇多样性度量方法在评估由大型语言模型生成的合成文本时,易受文本长度变化的影响,导致评估偏差。
- 论文提出Penalty-Adjusted Type-Token Ratio (PATTR) 指标,通过引入任务特定目标长度,减轻长度偏差,更准确地评估词汇多样性。
- 实验表明,PATTR在视频脚本生成任务中,能有效过滤出更符合目标长度且词汇更丰富的文本,优于现有MATTR和CR指标。
📝 摘要(中文)
大型语言模型(LLMs)生成的合成文本越来越多地用于LLMs的进一步训练和改进。多样性对于合成数据的有效性至关重要,研究人员依赖于提示工程来提高多样性。然而,提示变化对响应文本长度的影响,以及更重要的是,对词汇多样性测量的后续影响,仍未得到充分探索。在这项工作中,我们提出了惩罚调整类型-标记比率(Penalty-Adjusted Type-Token Ratio, PATTR),这是一种对长度变化具有鲁棒性的多样性度量。我们使用来自LLaMA、OLMo和Phi系列的七个模型生成了一个超过2000万字的合成语料库,重点关注视频脚本生成的创意写作任务,其中多样性至关重要。我们使用PATTR评估每个响应的词汇多样性,并将其与现有的移动平均TTR(MATTR)和压缩比(CR)指标进行比较。我们的分析强调了文本长度变化如何引入偏见,从而偏向于较短的响应。与现有指标不同,PATTR显式地考虑了特定于任务的目标响应长度($L_T$),以有效地减轻长度偏差。我们进一步证明了PATTR在过滤词汇最多样化的前10/100/1,000个响应中的效用,表明它始终优于MATTR和CR,在高度遵守$L_T$的情况下产生同等或更好的多样性。
🔬 方法详解
问题定义:现有词汇多样性度量方法,如Moving-Average TTR (MATTR) 和 Compression Ratio (CR),在评估由大型语言模型生成的合成文本时,会受到文本长度变化的影响。由于提示工程会影响生成文本的长度,这导致对词汇多样性的评估产生偏差,尤其是在需要特定长度输出的任务中,例如视频脚本生成。现有方法倾向于偏好较短的文本,无法准确反映真实的词汇多样性。
核心思路:论文的核心思路是引入一个惩罚项,该惩罚项基于任务特定的目标响应长度 ($L_T$),对偏离目标长度的文本进行惩罚。通过这种方式,PATTR能够减轻长度偏差,更准确地评估文本的词汇多样性。PATTR的设计目标是使多样性评估更加公平,无论生成文本的长度如何。
技术框架:PATTR的计算过程如下:首先,计算传统的Type-Token Ratio (TTR),即文本中不同词的数量(Type)与总词数(Token)的比率。然后,根据文本长度与目标长度 ($L_T$) 的差异,计算一个惩罚因子。最后,将TTR乘以该惩罚因子,得到最终的PATTR值。整体流程简单易懂,易于实现。
关键创新:PATTR的关键创新在于引入了任务特定的目标长度 ($L_T$) 作为惩罚因子,从而显式地考虑了文本长度对词汇多样性评估的影响。与传统的TTR及其变体(如MATTR)相比,PATTR能够更准确地反映文本的真实词汇多样性,尤其是在生成文本长度存在较大差异的情况下。
关键设计:PATTR的计算公式为:PATTR = TTR * penalty_factor。其中,penalty_factor的设计至关重要。论文中penalty_factor的具体形式未知,但其核心思想是:当文本长度接近目标长度 ($L_T$) 时,penalty_factor接近1;当文本长度偏离目标长度时,penalty_factor小于1,且偏离越大,penalty_factor越小。$L_T$ 的选择取决于具体的任务需求,需要根据经验或实验进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在视频脚本生成任务中,PATTR能够有效地过滤出更符合目标长度且词汇更丰富的文本。与MATTR和CR相比,PATTR在保持或提高词汇多样性的同时,能够更好地 adherence to $L_T$。具体性能数据未知,但论文强调PATTR在top-10/100/1,000个最lexically diverse responses的筛选中,始终优于MATTR和CR。
🎯 应用场景
PATTR可应用于评估和筛选大型语言模型生成的合成数据,尤其是在需要控制生成文本长度的任务中,例如故事生成、对话系统和视频脚本生成。通过使用PATTR,可以提高合成数据的质量和多样性,从而提升下游任务的性能。该方法还可用于评估不同提示策略对生成文本多样性的影响。
📄 摘要(原文)
Synthetic text generated by Large Language Models (LLMs) is increasingly used for further training and improvement of LLMs. Diversity is crucial for the effectiveness of synthetic data, and researchers rely on prompt engineering to improve diversity. However, the impact of prompt variations on response text length, and, more importantly, the consequential effect on lexical diversity measurements, remain underexplored. In this work, we propose Penalty-Adjusted Type-Token Ratio (PATTR), a diversity metric robust to length variations. We generate a large synthetic corpus of over 20M words using seven models from the LLaMA, OLMo, and Phi families, focusing on a creative writing task of video script generation, where diversity is crucial. We evaluate per-response lexical diversity using PATTR and compare it against existing metrics of Moving-Average TTR (MATTR) and Compression Ratio (CR). Our analysis highlights how text length variations introduce biases favoring shorter responses. Unlike existing metrics, PATTR explicitly considers the task-specific target response length ($L_T$) to effectively mitigate length biases. We further demonstrate the utility of PATTR in filtering the top-10/100/1,000 most lexically diverse responses, showing that it consistently outperforms MATTR and CR by yielding on par or better diversity with high adherence to $L_T$.