Programming by Examples Meets Historical Linguistics: A Large Language Model Based Approach to Sound Law Induction

📄 arXiv: 2501.16524v1 📥 PDF

作者: Atharva Naik, Darsh Agrawal, Hong Sng, Clayton Marr, Kexun Zhang, Nathaniel R Robinson, Kalvin Chang, Rebecca Byrnes, Aravind Mysore, Carolyn Rose, David R Mortensen

分类: cs.CL

发布日期: 2025-01-27


💡 一句话要点

提出基于大语言模型的程序示例学习方法,用于自动归纳语音演变规律。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语音规律归纳 程序示例学习 大型语言模型 历史语言学 合成数据生成

📋 核心要点

  1. 现有语音规律归纳方法耗时,缺乏自动化,难以处理大规模语言数据。
  2. 利用大语言模型的代码生成能力,将语音规律归纳问题转化为程序示例学习任务。
  3. 通过合成数据生成方法,提升模型在语音规律归纳任务上的性能,并开源了SOTA模型。

📝 摘要(中文)

历史语言学家长期以来编写“程序”,通过有序的字符串重写函数(称为语音规律)将祖语中重构的词汇转换为已证实的后代词汇。然而,编写这些程序非常耗时,因此本文将自动语音规律归纳(SLI)定义为程序示例学习(PBE),并利用大型语言模型(LLM)来解决这个问题。虽然LLM在代码生成方面表现出色,但最近的研究表明,PBE具有挑战性,但可以通过微调来改进,特别是使用来自与评估数据相同分布的训练数据。在本文中,我们创建了一个概念框架,用于定义SLI的“相似分布”,并提出了四种具有不同归纳偏置的合成数据生成方法,以研究什么导致最佳性能。基于结果,我们创建了一个SOTA开源模型,用于将SLI作为PBE(通过率提高+6%,参数仅为第二佳LLM的三分之一),并强调了PBE研究令人兴奋的未来方向。

🔬 方法详解

问题定义:论文旨在解决历史语言学中语音规律归纳(Sound Law Induction, SLI)的自动化问题。传统方法依赖语言学家手动编写规则,耗时且效率低。现有基于机器学习的方法在泛化性和准确性方面仍有提升空间,尤其是在缺乏足够训练数据的情况下。

核心思路:论文的核心思路是将SLI问题转化为程序示例学习(Programming by Examples, PBE)问题,并利用大型语言模型(LLM)的代码生成能力来自动生成语音规律。通过提供祖语和后代语言的词汇对应关系作为示例,LLM学习生成将祖语词汇转换为后代语言词汇的字符串重写规则。

技术框架:整体框架包含以下几个主要阶段:1) 数据准备:构建或收集祖语和后代语言的词汇对应关系数据集。2) 合成数据生成:设计四种不同的合成数据生成方法,以模拟不同类型的语音规律,并增加训练数据的多样性。3) 模型训练:使用合成数据对LLM进行微调,使其适应SLI任务。4) 模型评估:使用真实世界的语音规律归纳数据集评估模型的性能。

关键创新:论文的关键创新在于:1) 将SLI问题形式化为PBE问题,充分利用了LLM的代码生成能力。2) 提出了四种合成数据生成方法,通过控制归纳偏置,有效提升了模型的泛化能力。3) 通过实验验证了合成数据生成方法对模型性能的提升,并开源了SOTA模型。

关键设计:论文设计了四种合成数据生成方法,分别具有不同的归纳偏置:1) Random:随机生成字符串重写规则。2) Phonotactic:基于音系学规则生成重写规则。3) Typological:基于语言类型学知识生成重写规则。4) Hybrid:结合以上三种方法生成重写规则。此外,论文还探索了不同的LLM架构和微调策略,以优化模型在SLI任务上的性能。具体参数设置和损失函数细节在论文中未详细说明。

📊 实验亮点

实验结果表明,基于合成数据训练的LLM在SLI任务上取得了显著的性能提升,超过了现有的SOTA模型。具体而言,该模型在通过率(pass rate)上提高了6%,并且参数量仅为第二佳LLM的三分之一。这表明该方法在效率和准确性方面都具有优势。

🎯 应用场景

该研究成果可应用于历史语言学、比较语言学等领域,帮助语言学家更高效地分析和理解语言的演变规律。此外,该方法还可以应用于低资源语言的语音规律发现,为语言保护和传承提供技术支持。未来,该研究有望扩展到其他语言学任务,如词源学研究、方言识别等。

📄 摘要(原文)

Historical linguists have long written "programs" that convert reconstructed words in an ancestor language into their attested descendants via ordered string rewrite functions (called sound laws) However, writing these programs is time-consuming, motivating the development of automated Sound Law Induction (SLI) which we formulate as Programming by Examples (PBE) with Large Language Models (LLMs) in this paper. While LLMs have been effective for code generation, recent work has shown that PBE is challenging but improvable by fine-tuning, especially with training data drawn from the same distribution as evaluation data. In this paper, we create a conceptual framework of what constitutes a "similar distribution" for SLI and propose four kinds of synthetic data generation methods with varying amounts of inductive bias to investigate what leads to the best performance. Based on the results we create a SOTA open-source model for SLI as PBE (+6% pass rate with a third of the parameters of the second-best LLM) and also highlight exciting future directions for PBE research.