Naamah: A Large Scale Synthetic Sanskrit NER Corpus via DBpedia Seeding and LLM Generation
作者: Akhil Rajeev P, Annarao Kulkarni
分类: cs.CL, cs.AI
发布日期: 2026-04-29
💡 一句话要点
提出Naamah,一个基于DBpedia和LLM生成的大规模梵语命名实体识别合成数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 命名实体识别 梵语 数据增强 大型语言模型 DBpedia 合成数据 低资源语言
📋 核心要点
- 梵语NER缺乏标注数据,现有LLM数据增强方法易出错,且缺乏古典语法推理能力。
- 结合DBpedia实体提取和LLM生成,创建语法自然且多样化的梵语NER合成数据。
- 构建包含102,942句子的Naamah数据集,并验证XLM RoBERTa和IndicBERTv2的性能。
📝 摘要(中文)
梵语古典文献的数字化受到标注资源稀缺的阻碍,尤其是在命名实体识别方面。虽然最近的方法利用通用大型语言模型(LLM)进行数据增强,但这些方法仍然容易出错,并且常常缺乏古典语法所需的推理深度。本文介绍了Naamah,一个高质量的银标准梵语NER数据集,包含102,942个句子。我们提出了一种方法,该方法结合了从DBpedia提取实体与24B参数混合推理模型的生成能力,以创建语法自然且具有合成多样性的训练数据。我们利用此数据集来基准测试两个Transformer架构:大规模多语言XLM RoBERTa和参数高效的IndicBERTv2。
🔬 方法详解
问题定义:论文旨在解决梵语命名实体识别(NER)任务中缺乏大规模高质量标注数据的问题。现有方法依赖通用LLM进行数据增强,但这些方法在梵语的古典语法推理方面存在不足,容易产生错误,无法满足高质量NER模型训练的需求。
核心思路:论文的核心思路是结合知识库(DBpedia)的实体信息和大型语言模型(LLM)的生成能力,自动生成大规模、语法正确的梵语NER训练数据。通过DBpedia提供实体信息,保证数据的准确性,利用LLM的生成能力,保证数据的多样性和语法自然性。
技术框架:该方法主要包含以下几个阶段:1) 从DBpedia提取梵语实体信息;2) 使用一个24B参数的混合推理模型,根据提取的实体信息生成包含这些实体的梵语句子;3) 对生成的句子进行NER标注,形成最终的Naamah数据集。该数据集随后被用于训练和评估XLM RoBERTa和IndicBERTv2等Transformer模型。
关键创新:该方法最重要的创新点在于结合了知识库和LLM的优势,克服了传统数据增强方法的局限性。通过DBpedia保证实体信息的准确性,避免了LLM生成过程中可能出现的错误;同时,利用LLM的生成能力,创造了大量具有语法自然性和多样性的训练数据。
关键设计:论文中使用了24B参数的混合推理模型进行句子生成,具体模型架构未知。DBpedia实体的提取和映射方式也未详细说明。数据集的标注方式采用银标准,可能存在一定的噪声。Transformer模型的训练细节(如学习率、batch size等)也未在摘要中提及。
📊 实验亮点
论文构建了一个包含102,942个句子的梵语NER数据集Naamah,并使用该数据集对XLM RoBERTa和IndicBERTv2进行了基准测试。虽然摘要中没有给出具体的性能数据和提升幅度,但该数据集的规模和质量为后续研究提供了有力的支持。
🎯 应用场景
该研究成果可应用于梵语古典文献的数字化和自动分析,例如自动提取文献中的人物、地点、组织机构等信息,辅助历史研究和文化传承。该方法也可推广到其他低资源语言的NER任务中,具有重要的学术价值和实际意义。
📄 摘要(原文)
The digitisation of classical Sanskrit literature is impeded by a scarcity of annotated resources, particularly for Named Entity Recognition. While recent methodologies utilise generic Large Language Models (LLMs) for data augmentation, these approaches remain prone to error and often lack the reasoning depth required for classical grammar. In this work, we introduce Naamah, a high quality silver standard Sanskrit NER dataset comprising 102,942 sentences. We propose a methodology that combines entity extraction from DBpedia with the generative capabilities of a 24B parameter hybrid reasoning model to create grammatically natural and synthetically diverse training data. We utilize this dataset to benchmark two transformer architectures: the massive multilingual XLM RoBERTa and the parameter efficient IndicBERTv2.