Can LLMs capture stable human-generated sentence entropy measures?
作者: Estrella Pivel-Villanueva, Elisabeth Frederike Sterner, Franziska Knolle
分类: cs.CL
发布日期: 2026-02-04
💡 一句话要点
研究表明LLM在多大程度上能捕捉人类句子熵的稳定性,并提供人类数据规范化的实践指南。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 句子熵 大型语言模型 人类数据规范化 收敛分析 语言理解
📋 核心要点
- 现有研究缺乏关于获取稳定、无偏的词级别熵估计所需人类响应数量的共识,这阻碍了语言理解研究的进展。
- 该研究通过bootstrap收敛分析,确定了德语和英语句子熵估计稳定所需的最小人类响应数量,并分析了句子可预测性对收敛的影响。
- 实验结果表明,GPT-4o在近似人类熵方面表现最佳,但其性能受提取方法和提示设计影响,且不能完全替代人类数据。
📝 摘要(中文)
本文研究了大型语言模型(LLM)能否捕捉到稳定的人类生成的句子熵。通过使用德语和英语的两个大型cloze数据集,采用基于bootstrap的收敛分析,追踪熵估计随样本量的稳定情况。结果表明,两种语言中超过97%的句子在可用样本量内达到了稳定的熵估计。90%的句子在德语中经过111个响应,英语中经过81个响应后收敛。低熵句子(<1)仅需20个响应,而高熵句子(>2.5)需要更多。研究直接验证了常用规范化实践,并表明收敛依赖于句子可预测性。将稳定的人类熵值与GPT-4o等LLM的熵估计进行比较,发现GPT-4o与人类数据的一致性最高,但对齐效果取决于提取方法和提示设计。基于logit的估计最小化了绝对误差,而基于采样的估计更好地捕捉了人类变异性的分散。研究为人类规范化提供了实践指南,并表明LLM可以近似人类熵,但不能替代稳定的人类分布。
🔬 方法详解
问题定义:论文旨在解决两个主要问题:一是确定在词级别获得稳定且无偏的熵估计需要多少人类响应;二是评估大型语言模型(LLM)在多大程度上可以重现稳定的人类熵。现有方法缺乏对人类响应数量的明确指导,并且LLM作为人类数据的替代品的能力尚未明确。
核心思路:论文的核心思路是使用bootstrap方法进行收敛分析,通过增加样本量来观察熵估计的稳定性。通过比较不同LLM生成的熵与稳定的人类熵,评估LLM作为人类数据替代品的潜力。这种方法允许研究人员量化LLM在多大程度上可以捕捉人类语言理解的关键方面。
技术框架:研究的技术框架包括以下几个主要阶段: 1. 数据收集:使用德语和英语的cloze数据集。 2. Bootstrap收敛分析:使用bootstrap方法,通过增加样本量来计算熵估计的收敛性。 3. LLM熵估计:使用不同的LLM(如GPT-4o, GPT2-xl, RoBERTa Base, LLaMA 2 7B Chat)生成熵估计,采用logit-based概率提取和sampling-based频率估计两种方法。 4. 比较分析:将LLM生成的熵与稳定的人类熵进行比较,评估LLM的性能。
关键创新:该研究的关键创新在于: 1. 首次直接实证验证了常用规范化实践,并量化了获得稳定熵估计所需的人类响应数量。 2. 揭示了句子可预测性对熵估计收敛性的关键影响。 3. 系统地比较了多种LLM在捕捉人类熵方面的能力,并评估了不同提取方法和提示设计的影响。
关键设计:研究的关键设计包括: 1. 使用bootstrap方法进行收敛分析,通过增加样本量来观察熵估计的稳定性。 2. 采用logit-based概率提取和sampling-based频率估计两种方法从LLM中提取熵。 3. 使用绝对误差和分散度等指标来评估LLM生成的熵与人类熵之间的差异。
📊 实验亮点
研究表明,90%的句子在德语中经过111个响应,英语中经过81个响应后收敛。GPT-4o在近似人类熵方面表现最佳,但其性能受提取方法和提示设计影响。基于logit的估计最小化了绝对误差,而基于采样的估计更好地捕捉了人类变异性的分散。
🎯 应用场景
该研究成果可应用于自然语言处理、心理语言学和人工智能等领域。它为人类数据规范化提供了实践指南,帮助研究人员更有效地收集和利用人类数据。此外,该研究还为评估LLM在语言理解方面的能力提供了参考,有助于开发更智能的语言模型,并促进人机交互的发展。
📄 摘要(原文)
Predicting upcoming words is a core mechanism of language comprehension and may be quantified using Shannon entropy. There is currently no empirical consensus on how many human responses are required to obtain stable and unbiased entropy estimates at the word level. Moreover, large language models (LLMs) are increasingly used as substitutes for human norming data, yet their ability to reproduce stable human entropy remains unclear. Here, we address both issues using two large publicly available cloze datasets in German 1 and English 2. We implemented a bootstrap-based convergence analysis that tracks how entropy estimates stabilize as a function of sample size. Across both languages, more than 97% of sentences reached stable entropy estimates within the available sample sizes. 90% of sentences converged after 111 responses in German and 81 responses in English, while low-entropy sentences (<1) required as few as 20 responses and high-entropy sentences (>2.5) substantially more. These findings provide the first direct empirical validation for common norming practices and demonstrate that convergence critically depends on sentence predictability. We then compared stable human entropy values with entropy estimates derived from several LLMs, including GPT-4o, using both logit-based probability extraction and sampling-based frequency estimation, GPT2-xl/german-GPT-2, RoBERTa Base/GottBERT, and LLaMA 2 7B Chat. GPT-4o showed the highest correspondence with human data, although alignment depended strongly on the extraction method and prompt design. Logit-based estimates minimized absolute error, whereas sampling-based estimates were better in capturing the dispersion of human variability. Together, our results establish practical guidelines for human norming and show that while LLMs can approximate human entropy, they are not interchangeable with stable human-derived distributions.