Comparative Study of Pre-Trained BERT and Large Language Models for Code-Mixed Named Entity Recognition

📄 arXiv: 2509.02514v1 📥 PDF

作者: Mayur Shirke, Amey Shembade, Pavan Thorat, Madhushri Wagh, Raviraj Joshi

分类: cs.CL, cs.LG

发布日期: 2025-09-02


💡 一句话要点

对比研究预训练BERT与大语言模型在混合语命名实体识别中的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合语命名实体识别 预训练语言模型 Hinglish BERT RoBERTa 大语言模型 零样本学习 领域自适应

📋 核心要点

  1. 混合语命名实体识别因语言切换频繁、结构非正式等特点,对现有NER模型构成挑战。
  2. 论文对比了在混合语数据上训练的模型与通用多语言模型,以及零样本大语言模型。
  3. 实验表明,在混合语数据上微调的模型性能最佳,优于通用模型和闭源大语言模型。

📝 摘要(中文)

本研究针对混合语文本(特别是印地语-英语混合语,即Hinglish)中的命名实体识别(NER)任务,由于其非正式结构、音译和频繁的语言切换而面临独特的挑战。本文对比评估了在混合语数据上微调的模型和非混合语多语言模型,以及零样本生成式大语言模型(LLM)。具体来说,我们评估了HingBERT、HingMBERT和HingRoBERTa(在混合语数据上训练),以及BERT Base Cased、IndicBERT、RoBERTa和MuRIL(在非混合语多语言数据上训练)。我们还使用修改后的数据集(去除了NER标签)评估了Google Gemini在零样本环境下的性能。所有模型均在基准Hinglish NER数据集上使用精确率、召回率和F1分数进行测试。结果表明,混合语模型,特别是基于HingRoBERTa和HingBERT微调的模型,优于其他模型,包括像Google Gemini这样的闭源LLM,这归功于领域特定的预训练。非混合语模型的表现尚可,但适应性有限。值得注意的是,Google Gemini表现出具有竞争力的零样本性能,突显了现代LLM的泛化能力。本研究为混合语NER任务中专用模型与通用模型的有效性提供了关键见解。

🔬 方法详解

问题定义:论文旨在解决混合语文本(特别是 Hinglish)中的命名实体识别问题。现有方法,如通用多语言模型,在处理混合语时,由于缺乏对混合语特性的针对性训练,性能受到限制。现有方法难以有效处理混合语中常见的非正式结构、音译和频繁的语言切换现象。

核心思路:论文的核心思路是通过在混合语数据上进行预训练或微调,使模型能够更好地理解和处理混合语文本的特性。同时,探索零样本大语言模型在混合语NER任务中的潜力。通过对比不同模型的性能,分析领域特定预训练和通用预训练对混合语NER任务的影响。

技术框架:论文采用对比实验的方法,评估了以下几类模型在 Hinglish NER 任务上的性能:1) 在混合语数据上预训练的模型(HingBERT, HingMBERT, HingRoBERTa);2) 在非混合语多语言数据上预训练的模型(BERT Base Cased, IndicBERT, RoBERTa, MuRIL);3) 零样本大语言模型(Google Gemini)。所有模型均在同一基准数据集上进行测试,并使用精确率、召回率和 F1 分数作为评估指标。

关键创新:论文的关键创新在于对不同类型的预训练模型在混合语 NER 任务中的性能进行了全面的对比分析,并揭示了领域特定预训练的重要性。此外,论文还探索了零样本大语言模型在混合语 NER 任务中的潜力,为未来的研究方向提供了新的思路。

关键设计:论文的关键设计包括:1) 选择具有代表性的混合语 NER 基准数据集;2) 选择不同类型的预训练模型进行对比,包括混合语预训练模型、通用多语言模型和零样本大语言模型;3) 使用标准的 NER 评估指标(精确率、召回率和 F1 分数)进行客观的性能评估;4) 对 Google Gemini 进行了零样本测试,通过修改数据集,移除了 NER 标签,以评估其泛化能力。

📊 实验亮点

实验结果表明,在混合语数据上微调的 HingRoBERTa 和 HingBERT 模型在 Hinglish NER 任务中表现最佳,优于其他模型,包括闭源大语言模型 Google Gemini。这表明领域特定的预训练对于混合语 NER 任务至关重要。Google Gemini 在零样本设置下表现出具有竞争力的性能,但仍不如经过混合语数据微调的模型。

🎯 应用场景

该研究成果可应用于社交媒体情感分析、客户服务对话分析、多语言信息检索等领域。通过提升混合语文本的命名实体识别准确率,可以更有效地理解和处理多语言用户生成内容,从而为企业和研究机构提供更精准的数据分析和决策支持。未来,该研究可扩展到其他混合语场景,并与其他自然语言处理任务相结合,例如机器翻译和文本摘要。

📄 摘要(原文)

Named Entity Recognition (NER) in code-mixed text, particularly Hindi-English (Hinglish), presents unique challenges due to informal structure, transliteration, and frequent language switching. This study conducts a comparative evaluation of code-mixed fine-tuned models and non-code-mixed multilingual models, along with zero-shot generative large language models (LLMs). Specifically, we evaluate HingBERT, HingMBERT, and HingRoBERTa (trained on code-mixed data), and BERT Base Cased, IndicBERT, RoBERTa and MuRIL (trained on non-code-mixed multilingual data). We also assess the performance of Google Gemini in a zero-shot setting using a modified version of the dataset with NER tags removed. All models are tested on a benchmark Hinglish NER dataset using Precision, Recall, and F1-score. Results show that code-mixed models, particularly HingRoBERTa and HingBERT-based fine-tuned models, outperform others - including closed-source LLMs like Google Gemini - due to domain-specific pretraining. Non-code-mixed models perform reasonably but show limited adaptability. Notably, Google Gemini exhibits competitive zero-shot performance, underlining the generalization strength of modern LLMs. This study provides key insights into the effectiveness of specialized versus generalized models for code-mixed NER tasks.