Matching domain experts by training from scratch on domain knowledge

📄 arXiv: 2405.09395v2 📥 PDF

作者: Xiaoliang Luo, Guangzhi Sun, Bradley C. Love

分类: q-bio.NC, cs.AI, cs.CL

发布日期: 2024-05-15 (更新: 2024-07-02)

备注: ICML 2024 (Large Language Models and Cognition)


💡 一句话要点

通过领域知识从头训练小模型,实现匹配领域专家的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 领域知识 语言模型 GPT-2 神经科学 自回归训练

📋 核心要点

  1. 大型语言模型在特定领域(如神经科学)表现出超越人类专家的能力,但其原因尚不明确。
  2. 该研究通过在领域知识上从头训练小型GPT-2模型,探索领域知识本身对模型性能的影响。
  3. 实验表明,即使是小型模型,在经过领域知识训练后,也能达到专家级的预测性能。

📝 摘要(中文)

最近,大型语言模型(LLMs)在预测神经科学实验结果方面超越了人类专家。这种性能的基础是什么?一种可能性是,特定科学文献中的统计模式,而非来自更广泛训练的新兴推理能力,是LLMs性能的基础。为了评估这种可能性,我们使用领域特定知识训练了一个相对较小的1.24亿参数的GPT-2模型(next word prediction),训练数据为13亿tokens。尽管比在数万亿tokens上训练的更大的LLMs小几个数量级,但小型模型在预测神经科学结果方面达到了专家级的性能。当使用专门针对神经科学文本训练的分词器从头开始训练,或者使用神经科学文献来微调预训练的GPT-2时,在神经科学文献上训练的小型模型都取得了成功。我们的结果表明,即使是小型LLMs,也可以通过领域特定的自回归训练方法获得专家级的性能。

🔬 方法详解

问题定义:论文旨在探究大型语言模型在特定领域(如神经科学)取得优异表现的根本原因。现有观点认为,大型模型的涌现能力是关键。然而,论文质疑这种观点,认为领域特定知识可能才是更重要的因素。现有方法依赖于大型模型和海量数据,成本高昂,且难以解释其成功的原因。

核心思路:论文的核心思路是,通过在领域特定知识上从头训练小型语言模型,来验证领域知识本身是否足以使模型达到专家级的性能。如果小型模型也能取得类似甚至超越人类专家的表现,则说明领域知识的重要性被低估了。这种方法可以降低训练成本,并更容易分析模型学习到的知识。

技术框架:论文采用GPT-2架构,但模型参数量较小(1.24亿)。训练数据为13亿tokens的神经科学文献。训练方式为next word prediction,即自回归语言模型训练。论文比较了两种训练策略:一是使用专门针对神经科学文本训练的分词器从头开始训练;二是使用神经科学文献微调预训练的GPT-2模型。

关键创新:论文的关键创新在于,它证明了即使是小型语言模型,在经过领域特定知识的训练后,也能达到专家级的性能。这挑战了大型模型涌现能力的观点,并强调了领域知识的重要性。此外,论文还探索了不同的训练策略,并验证了从头训练和微调两种方式的可行性。

关键设计:论文的关键设计包括:1) 使用相对较小的GPT-2模型(1.24亿参数),以降低计算成本并更容易分析模型;2) 使用大量的领域特定数据(13亿tokens的神经科学文献)进行训练;3) 比较从头训练和微调两种训练策略;4) 使用专门针对神经科学文本训练的分词器,以更好地处理领域特定词汇。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过神经科学文献训练的小型GPT-2模型在预测神经科学实验结果方面达到了专家级的性能,甚至超越了人类专家。无论采用从头训练还是微调策略,小型模型都能取得显著的性能提升。这表明领域知识对于语言模型的性能至关重要,即使是小型模型也能通过学习领域知识来达到专家水平。

🎯 应用场景

该研究成果可应用于多个领域,例如:1) 构建特定领域的专家系统,用于辅助科研人员进行研究;2) 降低训练语言模型的成本,使更多研究人员能够参与到语言模型的研究中;3) 更好地理解语言模型的工作原理,为开发更高效、更可解释的语言模型提供理论基础。未来,该研究可以扩展到其他领域,例如医学、法律等。

📄 摘要(原文)

Recently, large language models (LLMs) have outperformed human experts in predicting the results of neuroscience experiments (Luo et al., 2024). What is the basis for this performance? One possibility is that statistical patterns in that specific scientific literature, as opposed to emergent reasoning abilities arising from broader training, underlie LLMs' performance. To evaluate this possibility, we trained (next word prediction) a relatively small 124M-parameter GPT-2 model on 1.3 billion tokens of domain-specific knowledge. Despite being orders of magnitude smaller than larger LLMs trained on trillions of tokens, small models achieved expert-level performance in predicting neuroscience results. Small models trained on the neuroscience literature succeeded when they were trained from scratch using a tokenizer specifically trained on neuroscience text or when the neuroscience literature was used to finetune a pretrained GPT-2. Our results indicate that expert-level performance may be attained by even small LLMs through domain-specific, auto-regressive training approaches.