A Hybrid Method for Low-Resource Named Entity Recognition
作者: Do Minh Duc, Quan Xuan Truong, Viet Tran Hong, Le Hoang Anh, Mac Thi Minh Tra, Nguyen Van Thuy, Le Hai Ha, Vinh Nguyen Van
分类: cs.CE, cs.AI, cs.CL
发布日期: 2026-05-06
备注: Published in Journal of Applied Data Sciences, Volume 7, Issue 2, pages 999--1019, 2026. Open access under CC BY 4.0
期刊: Journal of Applied Data Sciences, Vol. 7, No. 2, pp. 999--1019, 2026
💡 一句话要点
提出一种混合神经符号方法,解决低资源越南语命名实体识别问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 命名实体识别 低资源语言 越南语 神经符号方法 数据增强 预训练模型 RoBERTa
📋 核心要点
- 低资源场景下,命名实体识别面临标注数据少、标签体系复杂等问题,严重制约了模型性能。
- 论文提出一种混合神经符号框架,结合规则系统和深度学习,先简化标签再精细提取,提升识别精度。
- 实验表明,该方法在多个越南语特定领域数据集上显著优于RoBERTa基线,F1值提升明显。
📝 摘要(中文)
命名实体识别(NER)是自然语言处理的关键组成部分,在信息提取和对话式人工智能中具有广泛的应用。然而,针对低资源语言的特定领域NER面临着标注数据有限和标签集异构等挑战。本研究提出了一种混合神经符号框架,该框架将基于规则的处理与深度学习模型相结合,用于越南语NER。核心思想是一个两阶段流程:首先,基于规则的组件通过对关系和特殊类别进行分组来降低标签的复杂性;其次,对预训练语言模型进行微调以实现高精度提取。然后,利用后处理模块恢复细粒度标签,从而保持应用级别的表达能力。为了缓解数据稀缺问题,引入了一种可扩展的数据增强策略,利用大型语言模型(LLM)来扩展标签集,而无需完全重新标注,这是这项工作的一个重要创新。该方法的有效性在包括物流、野生动物和医疗保健在内的五个特定领域数据集上进行了评估。实验结果表明,与强大的基于RoBERTa的基线相比,该系统取得了显著的改进。具体而言,所提出的系统在客户服务中的F1得分从83%提高到90%,在GAM中从73%提高到84%,在AI Fluent中从80%提高到83%,在PhoNER_Covid19中从91%提高到94%,在稀有野生动物中从36%提高到60%。这些发现证实,该混合方法有效地捕捉了越南语的语言复杂性和特定领域的上下文细微差别,为低资源NER研究做出了重要贡献。
🔬 方法详解
问题定义:论文旨在解决低资源越南语环境下的命名实体识别问题。现有方法在数据量不足的情况下,难以有效学习复杂的语言模式和领域知识,导致识别精度较低,尤其是在标签体系复杂、细粒度实体较多的场景下,问题尤为突出。
核心思路:论文的核心思路是结合规则系统和深度学习模型的优势,构建一个混合神经符号框架。规则系统用于预处理数据,降低标签复杂度,减少模型学习难度;深度学习模型则负责从预处理后的数据中学习更深层次的特征,提高识别精度。通过两者的结合,可以有效缓解低资源带来的问题。
技术框架:整体框架是一个两阶段的流水线结构。第一阶段是基于规则的预处理模块,该模块根据预定义的规则将一些关系型和特殊类型的实体进行分组,从而简化标签体系。第二阶段是基于预训练语言模型的微调模块,该模块使用预处理后的数据对预训练的RoBERTa模型进行微调,以学习命名实体识别任务。最后,使用一个后处理模块将简化后的标签恢复为原始的细粒度标签。
关键创新:该论文的关键创新在于提出了一种可扩展的数据增强策略,利用大型语言模型(LLM)生成新的标注数据,而无需人工重新标注。这种方法可以有效缓解低资源问题,并提高模型的泛化能力。此外,混合神经符号框架本身也是一个创新点,它结合了规则系统和深度学习模型的优点,提高了识别精度。
关键设计:数据增强策略使用了LLM来生成新的训练数据,具体实现细节未知。规则系统的具体规则设计也未知,但其目标是降低标签复杂度。深度学习模型使用了预训练的RoBERTa模型,并针对NER任务进行了微调。损失函数和优化器等细节信息未知。
📊 实验亮点
实验结果表明,该方法在五个特定领域数据集上均取得了显著的提升。例如,在客户服务领域,F1值从83%提高到90%;在GAM领域,F1值从73%提高到84%;在稀有野生动物领域,F1值从36%提高到60%。这些结果表明,该方法能够有效解决低资源越南语命名实体识别问题,并具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于各种需要处理越南语文本的场景,例如智能客服、信息检索、舆情分析等。特别是在医疗、金融、法律等专业领域,该方法能够有效提高命名实体识别的准确率,从而提升相关应用系统的性能和用户体验。未来,该方法可以推广到其他低资源语言的命名实体识别任务中。
📄 摘要(原文)
Named Entity Recognition (NER) is a critical component of Natural Language Processing with diverse applications in information extraction and conversational AI. However, NER in specific domains for low-resource languages faces challenges such as limited annotated data and heterogeneous label sets. This study addresses these issues by proposing a hybrid neurosymbolic framework that integrates rule-based processing with deep learning models for Vietnamese NER. The core idea involves a two-stage pipeline: first, a rule-based component reduces label complexity by grouping relational and special categories; second, pre-trained language models are fine-tuned for high-precision extraction. A post-processing module is then utilized to restore fine-grained labels, preserving expressiveness for application-level usability. To mitigate data scarcity, a scalable data augmentation strategy leveraging Large Language Models (LLMs) is introduced to expand the label set without full re-annotation, which is a significant novelty of this work. The effectiveness of this method was evaluated across five specific-domain datasets, including logistics, wildlife, and healthcare. Experimental results demonstrate substantial improvements over strong RoBERTa-based baselines. Specifically, the proposed system achieved F1 scores of 90 percent in Customer Service, up from 83 percent; 84 percent in GAM, up from 73 percent; 83 percent in AI Fluent, up from 80 percent; 94 percent in PhoNER_Covid19, up from 91 percent; and 60 percent in Rare Wildlife, up from 36 percent. These findings confirm that the hybrid approach effectively captures the linguistic complexity of Vietnamese and contextual nuances in specialized domains, offering a robust contribution to low-resource NER research.