Comparative Study of Pre-Trained BERT and Large Language Models for Code-Mixed Named Entity Recognition

作者: Mayur Shirke, Amey Shembade, Pavan Thorat, Madhushri Wagh, Raviraj Joshi

分类: cs.CL, cs.LG

发布日期: 2025-09-02

💡 一句话要点

对比研究预训练BERT与大语言模型在混合语命名实体识别中的应用

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 混合语命名实体识别 预训练语言模型 Hinglish BERT RoBERTa 大语言模型 零样本学习 领域自适应

📋 核心要点

混合语命名实体识别因语言切换频繁、结构非正式等特点，对现有NER模型构成挑战。
论文对比了在混合语数据上训练的模型与通用多语言模型，以及零样本大语言模型。
实验表明，在混合语数据上微调的模型性能最佳，优于通用模型和闭源大语言模型。

📝 摘要（中文）

本研究针对混合语文本（特别是印地语-英语混合语，即Hinglish）中的命名实体识别（NER）任务，由于其非正式结构、音译和频繁的语言切换而面临独特的挑战。本文对比评估了在混合语数据上微调的模型和非混合语多语言模型，以及零样本生成式大语言模型（LLM）。具体来说，我们评估了HingBERT、HingMBERT和HingRoBERTa（在混合语数据上训练），以及BERT Base Cased、IndicBERT、RoBERTa和MuRIL（在非混合语多语言数据上训练）。我们还使用修改后的数据集（去除了NER标签）评估了Google Gemini在零样本环境下的性能。所有模型均在基准Hinglish NER数据集上使用精确率、召回率和F1分数进行测试。结果表明，混合语模型，特别是基于HingRoBERTa和HingBERT微调的模型，优于其他模型，包括像Google Gemini这样的闭源LLM，这归功于领域特定的预训练。非混合语模型的表现尚可，但适应性有限。值得注意的是，Google Gemini表现出具有竞争力的零样本性能，突显了现代LLM的泛化能力。本研究为混合语NER任务中专用模型与通用模型的有效性提供了关键见解。

🔬 方法详解

问题定义：论文旨在解决混合语文本（特别是 Hinglish）中的命名实体识别问题。现有方法，如通用多语言模型，在处理混合语时，由于缺乏对混合语特性的针对性训练，性能受到限制。现有方法难以有效处理混合语中常见的非正式结构、音译和频繁的语言切换现象。

核心思路：论文的核心思路是通过在混合语数据上进行预训练或微调，使模型能够更好地理解和处理混合语文本的特性。同时，探索零样本大语言模型在混合语NER任务中的潜力。通过对比不同模型的性能，分析领域特定预训练和通用预训练对混合语NER任务的影响。

技术框架：论文采用对比实验的方法，评估了以下几类模型在 Hinglish NER 任务上的性能：1) 在混合语数据上预训练的模型（HingBERT, HingMBERT, HingRoBERTa）；2) 在非混合语多语言数据上预训练的模型（BERT Base Cased, IndicBERT, RoBERTa, MuRIL）；3) 零样本大语言模型（Google Gemini）。所有模型均在同一基准数据集上进行测试，并使用精确率、召回率和 F1 分数作为评估指标。

关键创新：论文的关键创新在于对不同类型的预训练模型在混合语 NER 任务中的性能进行了全面的对比分析，并揭示了领域特定预训练的重要性。此外，论文还探索了零样本大语言模型在混合语 NER 任务中的潜力，为未来的研究方向提供了新的思路。

关键设计：论文的关键设计包括：1) 选择具有代表性的混合语 NER 基准数据集；2) 选择不同类型的预训练模型进行对比，包括混合语预训练模型、通用多语言模型和零样本大语言模型；3) 使用标准的 NER 评估指标（精确率、召回率和 F1 分数）进行客观的性能评估；4) 对 Google Gemini 进行了零样本测试，通过修改数据集，移除了 NER 标签，以评估其泛化能力。

📊 实验亮点

实验结果表明，在混合语数据上微调的 HingRoBERTa 和 HingBERT 模型在 Hinglish NER 任务中表现最佳，优于其他模型，包括闭源大语言模型 Google Gemini。这表明领域特定的预训练对于混合语 NER 任务至关重要。Google Gemini 在零样本设置下表现出具有竞争力的性能，但仍不如经过混合语数据微调的模型。

🎯 应用场景

该研究成果可应用于社交媒体情感分析、客户服务对话分析、多语言信息检索等领域。通过提升混合语文本的命名实体识别准确率，可以更有效地理解和处理多语言用户生成内容，从而为企业和研究机构提供更精准的数据分析和决策支持。未来，该研究可扩展到其他混合语场景，并与其他自然语言处理任务相结合，例如机器翻译和文本摘要。

📄 摘要（原文）

Named Entity Recognition (NER) in code-mixed text, particularly Hindi-English (Hinglish), presents unique challenges due to informal structure, transliteration, and frequent language switching. This study conducts a comparative evaluation of code-mixed fine-tuned models and non-code-mixed multilingual models, along with zero-shot generative large language models (LLMs). Specifically, we evaluate HingBERT, HingMBERT, and HingRoBERTa (trained on code-mixed data), and BERT Base Cased, IndicBERT, RoBERTa and MuRIL (trained on non-code-mixed multilingual data). We also assess the performance of Google Gemini in a zero-shot setting using a modified version of the dataset with NER tags removed. All models are tested on a benchmark Hinglish NER dataset using Precision, Recall, and F1-score. Results show that code-mixed models, particularly HingRoBERTa and HingBERT-based fine-tuned models, outperform others - including closed-source LLMs like Google Gemini - due to domain-specific pretraining. Non-code-mixed models perform reasonably but show limited adaptability. Notably, Google Gemini exhibits competitive zero-shot performance, underlining the generalization strength of modern LLMs. This study provides key insights into the effectiveness of specialized versus generalized models for code-mixed NER tasks.

Comparative Study of Pre-Trained BERT and Large Language Models for Code-Mixed Named Entity Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理