Generating bilingual example sentences with large language models as lexicography assistants

作者: Raphael Merx, Ekaterina Vylomova, Kemal Kurniawan

分类: cs.CL, cs.AI

发布日期: 2024-10-04 (更新: 2024-11-19)

💡 一句话要点

利用大型语言模型生成双语例句，辅助词典编纂工作

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 双语词典 例句生成 大型语言模型 低资源语言 上下文学习

📋 核心要点

现有双语词典例句生成成本高昂，尤其是在低资源语言中，缺乏有效的自动化工具。
利用大型语言模型生成双语例句，并结合上下文学习对齐个体标注者偏好，提升例句质量。
实验表明，LLM在生成例句方面具有潜力，但低资源语言性能下降，上下文学习可有效提升对齐效果。

📝 摘要（中文）

本文研究了大型语言模型（LLMs）在为双语词典生成和评估例句方面的性能，研究对象包括不同资源水平的语言：法语（高资源）、印尼语（中等资源）和德顿语（低资源），目标语言均为英语。我们根据GDEX（Good Dictionary EXample）标准（典型性、信息性和可理解性）评估了LLM生成的例句质量。研究结果表明，虽然LLM可以生成相当不错的词典例句，但其性能在较低资源语言上显著下降。我们还观察到人类对例句质量的偏好存在高度差异，反映在较低的标注者间一致性上。为了解决这个问题，我们证明了上下文学习可以成功地使LLM与个体标注者的偏好对齐。此外，我们探索了使用预训练语言模型自动评估例句的方法，发现句子困惑度可以很好地代表较高资源语言的典型性和可理解性。我们的研究还贡献了一个包含600个LLM生成句子对评分的新数据集，并深入了解了LLM在降低词典编纂成本方面的潜力，尤其是在低资源语言方面。

🔬 方法详解

问题定义：论文旨在解决双语词典编纂中例句生成成本高、效率低的问题，尤其是在低资源语言环境下。现有方法依赖人工编写或收集，耗时耗力，且难以保证例句的质量和多样性。此外，不同词典编纂者对例句质量的偏好存在差异，难以统一标准。

核心思路：论文的核心思路是利用大型语言模型（LLMs）强大的生成能力，自动生成双语例句，并结合上下文学习，使LLM的生成结果与个体词典编纂者的偏好对齐。通过这种方式，降低人工成本，提高例句生成效率和质量。

技术框架：整体流程包括以下几个阶段：1) 使用LLM生成双语例句对；2) 人工标注例句对的质量（典型性、信息性、可理解性）；3) 利用标注数据，通过上下文学习调整LLM的生成策略，使其与个体标注者的偏好对齐；4) 探索使用预训练语言模型（如基于困惑度）自动评估例句质量的方法。

关键创新：论文的关键创新在于：1) 将LLM应用于双语词典例句生成任务，探索了其在不同资源水平语言上的性能；2) 提出了利用上下文学习对齐LLM与个体标注者偏好的方法，解决了标注标准不统一的问题；3) 探索了使用预训练语言模型自动评估例句质量的可能性。

关键设计：论文的关键设计包括：1) 针对不同资源水平的语言（法语、印尼语、德顿语）进行实验，评估LLM的泛化能力；2) 使用GDEX标准（典型性、信息性、可理解性）评估例句质量；3) 通过少量人工标注数据，构建上下文学习的prompt，引导LLM生成符合特定标注者偏好的例句；4) 使用句子困惑度作为预训练语言模型评估例句质量的指标。

📊 实验亮点

实验结果表明，LLM可以生成质量尚可的词典例句，但在低资源语言上的性能显著下降。上下文学习能够有效对齐LLM与个体标注者偏好，提升例句质量。句子困惑度可以作为高资源语言例句质量（典型性和可理解性）的有效代理指标。该研究还贡献了一个包含600个LLM生成句子对评分的新数据集。

🎯 应用场景

该研究成果可应用于自动化词典编纂、机器翻译、语言教学等领域。通过降低双语例句生成成本，可以促进低资源语言的数字化和保护。此外，该方法还可以应用于其他需要个性化文本生成的场景，例如智能客服、内容创作等，具有广泛的应用前景。

📄 摘要（原文）

We present a study of LLMs' performance in generating and rating example sentences for bilingual dictionaries across languages with varying resource levels: French (high-resource), Indonesian (mid-resource), and Tetun (low-resource), with English as the target language. We evaluate the quality of LLM-generated examples against the GDEX (Good Dictionary EXample) criteria: typicality, informativeness, and intelligibility. Our findings reveal that while LLMs can generate reasonably good dictionary examples, their performance degrades significantly for lower-resourced languages. We also observe high variability in human preferences for example quality, reflected in low inter-annotator agreement rates. To address this, we demonstrate that in-context learning can successfully align LLMs with individual annotator preferences. Additionally, we explore the use of pre-trained language models for automated rating of examples, finding that sentence perplexity serves as a good proxy for typicality and intelligibility in higher-resourced languages. Our study also contributes a novel dataset of 600 ratings for LLM-generated sentence pairs, and provides insights into the potential of LLMs in reducing the cost of lexicographic work, particularly for low-resource languages.

Generating bilingual example sentences with large language models as lexicography assistants

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理