Less is More: Pre-Training Cross-Lingual Small-Scale Language Models with Cognitively-Plausible Curriculum Learning Strategies
作者: Suchir Salhan, Richard Diehl Martinez, Zébulon Goriely, Paula Buttery
分类: cs.CL, cs.AI
发布日期: 2024-10-30 (更新: 2025-02-21)
备注: BabyLM Shared Task 2024 (Accepted, Poster), co-located in EMNLP 2024
💡 一句话要点
利用认知可信的课程学习策略,预训练跨语言小规模语言模型,提升性能。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 课程学习 小规模语言模型 语言习得 认知建模 跨语言学习
📋 核心要点
- 现有课程学习策略在小规模语言模型上提升有限,未能充分利用语言习得理论。
- 论文提出基于语言习得理论的细粒度课程学习策略,构建年龄排序的儿童导向语音语料库。
- 实验表明,该策略在跨语言小规模语言模型上优于非课程基线,验证了语言习得理论的有效性。
📝 摘要(中文)
课程学习是提高BabyLM挑战中小规模语言模型(SSLMs)认知合理性的常用策略。然而,相对于非课程模型,它并没有带来显著的改进。本文评估了是否可以使用理论语言习得理论来指定更细粒度的课程学习策略,为四个类型学上不同的语系创建了按年龄排序的儿童导向语音语料库,以跨语言地实现SSLMs和受习得启发的课程。通过比较三种客观课程(Growing、Inwards和MMM)的成功,这些课程精确地复制了标准SSLM架构上习得理论的预测,我们发现细粒度的、受习得启发的课程可以优于非课程基线,并且SSLMs中课程策略的性能优势可以通过指定精确复制语言习得理论的细粒度、特定于语言的课程来获得。
🔬 方法详解
问题定义:现有的小规模语言模型(SSLMs)在BabyLM挑战中,虽然采用了课程学习策略来模拟儿童的语言习得过程,但其性能提升并不显著。现有的课程学习方法未能充分利用语言习得理论的指导,导致课程设置不够精细,无法有效模拟儿童的语言学习过程。因此,如何设计更符合认知规律的课程学习策略,以提升SSLMs的性能,是一个亟待解决的问题。
核心思路:本文的核心思路是,将语言习得理论中的关键预测融入到课程学习策略的设计中,构建更精细化的、特定于语言的课程。具体来说,论文根据语言习得理论,设计了三种客观课程(Growing、Inwards和MMM),这些课程精确地复制了语言习得理论对儿童语言学习顺序的预测。通过让SSLMs按照这些课程进行学习,可以使其更好地模拟儿童的语言习得过程,从而提升其性能。
技术框架:本文的技术框架主要包括以下几个部分:首先,构建了四个类型学上不同的语系的儿童导向语音语料库,并根据语言习得理论对这些语料库进行年龄排序。然后,基于这些排序后的语料库,设计了三种客观课程(Growing、Inwards和MMM)。最后,使用这些课程来训练标准的SSLM架构,并评估其性能。
关键创新:本文最重要的技术创新点在于,将语言习得理论中的关键预测融入到课程学习策略的设计中,构建了更精细化的、特定于语言的课程。与现有的课程学习方法相比,本文的方法更加注重语言习得理论的指导,能够更有效地模拟儿童的语言习得过程。
关键设计:论文中关键的设计包括:1) 三种客观课程(Growing、Inwards和MMM)的设计,这些课程分别对应于不同的语言习得理论;2) 使用标准的SSLM架构,以便更好地评估课程学习策略的有效性;3) 在四个类型学上不同的语系上进行实验,以验证方法的跨语言适用性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于语言习得理论的细粒度课程学习策略能够显著提升SSLMs的性能,优于非课程基线。具体而言,三种客观课程(Growing、Inwards和MMM)在不同语言上的表现均优于非课程学习方法,验证了语言习得理论在课程学习中的有效性。这些结果表明,通过精细化地模拟儿童的语言习得过程,可以有效地提升小规模语言模型的性能。
🎯 应用场景
该研究成果可应用于开发更有效的儿童语言学习辅助工具,例如智能早教产品和语言学习App。通过模拟儿童的自然语言习得过程,这些工具可以提供更个性化、更有效的语言学习体验。此外,该研究也有助于提升机器翻译、语音识别等自然语言处理任务的性能,尤其是在处理儿童语音和文本时。
📄 摘要(原文)
Curriculum Learning has been a popular strategy to improve the cognitive plausibility of Small-Scale Language Models (SSLMs) in the BabyLM Challenge. However, it has not led to considerable improvements over non-curriculum models. We assess whether theoretical linguistic acquisition theories can be used to specify more fine-grained curriculum learning strategies, creating age-ordered corpora of Child-Directed Speech for four typologically distant language families to implement SSLMs and acquisition-inspired curricula cross-lingually. Comparing the success of three objective curricula (Growing, Inwards and MMM) that precisely replicate the predictions of acquisition theories on a standard SSLM architecture, we find fine-grained acquisition-inspired curricula can outperform non-curriculum baselines and performance benefits of curricula strategies in SSLMs can be derived by specifying fine-grained language-specific curricula that precisely replicate language acquisition theories.