Beyond Film Subtitles: Is YouTube the Best Approximation of Spoken Vocabulary?

作者: Adam Nohejl, Frederikus Hudi, Eunike Andriani Kardinata, Shintaro Ozaki, Maria Angelica Riera Machin, Hongyu Sun, Justin Vasselli, Taro Watanabe

分类: cs.CL

发布日期: 2024-10-04 (更新: 2025-01-11)

备注: Accepted to COLING 2025. 9 pages, 3 figures

🔗 代码/项目: GITHUB

💡 一句话要点

利用YouTube字幕构建高质量词频资源，提升心理语言学和词汇复杂度预测任务性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 词频统计 YouTube字幕 心理语言学 词汇复杂度预测 自然语言处理

📋 核心要点

现有电影字幕资源在多种语言中匮乏或质量不高，限制了心理语言学研究和词汇资源构建。
论文提出利用YouTube字幕构建词频资源，通过精心处理，使其成为高质量的日常语言近似。
实验表明，基于YouTube字幕的词频与心理语言学变量高度相关，并在词汇复杂度预测任务中超越现有方法。

📝 摘要（中文）

词频是心理语言学中的一个关键变量，即使在大语言模型（LLMs）时代，它对于建模人类对词汇的熟悉程度仍然非常有用。电影字幕已被证明是日常语言接触的一个特别好的近似。然而，对于许多语言来说，电影字幕不易获得，或者绝大多数是从英语翻译而来。我们证明，从经过仔细处理的YouTube字幕中提取的频率提供了一种与当前最佳资源相当，甚至通常更好的近似。此外，它们适用于那些缺乏高质量字幕或语音语料库的语言。我们使用YouTube字幕构建了五种不同语言（中文、英语、印尼语、日语和西班牙语）的频率规范，并评估了它们与词汇决策时间、词汇熟悉度和词汇复杂度的相关性。除了与两个心理语言学变量高度相关之外，对新频率进行简单线性回归在英语和日语的词汇复杂度预测任务中取得了新的高分，超过了在电影字幕频率上训练的模型以及LLM GPT-4。

🔬 方法详解

问题定义：论文旨在解决现有词频资源，特别是电影字幕，在多种语言中难以获取或质量不高的问题。现有方法依赖的电影字幕往往是英文翻译，不能很好地代表特定语言的口语习惯和真实使用情况，从而影响心理语言学研究和词汇资源构建的准确性。

核心思路：论文的核心思路是利用YouTube字幕作为一种更广泛、更贴近日常口语的词频来源。YouTube平台包含大量用户生成的视频内容，其字幕反映了更自然、更真实的语言使用情况。通过对YouTube字幕进行清洗、处理和分析，可以构建出高质量的词频资源，从而更好地服务于心理语言学研究和词汇复杂度预测等任务。

技术框架：论文的技术框架主要包括以下几个阶段：1) 数据收集：从YouTube平台收集多种语言的视频字幕数据。2) 数据清洗：对收集到的字幕数据进行清洗和预处理，包括去除噪声、纠正错误等。3) 词频统计：统计清洗后的字幕数据中每个词语的出现频率。4) 词频规范化：对统计得到的词频进行规范化处理，使其更具可比性和可用性。5) 评估：将构建的词频资源应用于心理语言学任务（如词汇决策时间预测、词汇熟悉度预测）和词汇复杂度预测任务，并与现有方法进行比较。

关键创新：论文的关键创新在于：1) 提出了利用YouTube字幕构建词频资源的新思路，克服了现有电影字幕资源的局限性。2) 构建了五种不同语言（中文、英语、印尼语、日语和西班牙语）的词频规范，为多语言心理语言学研究提供了宝贵资源。3) 证明了基于YouTube字幕的词频在心理语言学任务和词汇复杂度预测任务中具有优越的性能，超越了现有方法，包括基于电影字幕的模型和大型语言模型GPT-4。

关键设计：论文的关键设计包括：1) 字幕数据的清洗和预处理策略，以提高词频统计的准确性。2) 词频的规范化方法，以消除不同语料库大小和词频分布的影响。3) 实验评估方案，包括选择合适的心理语言学任务和词汇复杂度预测任务，以及选择合适的基线模型进行比较。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于YouTube字幕构建的词频资源与词汇决策时间和词汇熟悉度等心理语言学变量高度相关。在英语和日语的词汇复杂度预测任务中，使用新频率进行简单线性回归取得了新的最高分，超过了在电影字幕频率上训练的模型以及大型语言模型GPT-4。

🎯 应用场景

该研究成果可广泛应用于心理语言学、自然语言处理和教育领域。例如，可用于构建更准确的词汇难度评估系统，辅助语言学习者选择合适的阅读材料；也可用于改进机器翻译系统，使其生成更自然流畅的译文；还可用于心理语言学研究，探索人类语言认知和加工机制。

📄 摘要（原文）

Word frequency is a key variable in psycholinguistics, useful for modeling human familiarity with words even in the era of large language models (LLMs). Frequency in film subtitles has proved to be a particularly good approximation of everyday language exposure. For many languages, however, film subtitles are not easily available, or are overwhelmingly translated from English. We demonstrate that frequencies extracted from carefully processed YouTube subtitles provide an approximation comparable to, and often better than, the best currently available resources. Moreover, they are available for languages for which a high-quality subtitle or speech corpus does not exist. We use YouTube subtitles to construct frequency norms for five diverse languages, Chinese, English, Indonesian, Japanese, and Spanish, and evaluate their correlation with lexical decision time, word familiarity, and lexical complexity. In addition to being strongly correlated with two psycholinguistic variables, a simple linear regression on the new frequencies achieves a new high score on a lexical complexity prediction task in English and Japanese, surpassing both models trained on film subtitle frequencies and the LLM GPT-4. Our code, the frequency lists, fastText word embeddings, and statistical language models are freely available at https://github.com/naist-nlp/tubelex.

Beyond Film Subtitles: Is YouTube the Best Approximation of Spoken Vocabulary?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理