Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models

📄 arXiv: 2504.21026v1 📥 PDF

作者: Manish Pandey, Nageshwar Prasad Yadav, Mokshada Adduru, Sawan Rai

分类: cs.CL, cs.AI, cs.LG, cs.SI

发布日期: 2025-04-23


💡 一句话要点

构建尼泊尔语-英语和泰卢固语-英语混合语数据集,用于检测辱骂性语言

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 混合语 辱骂性语言检测 低资源语言 自然语言处理 数据集构建 机器学习 深度学习

📋 核心要点

  1. 现有辱骂性语言检测模型难以处理混合语文本,因为语言混合和上下文依赖性使攻击性内容难以识别。
  2. 本研究手动标注了泰卢固语-英语和尼泊尔语-英语混合语数据集,用于训练和评估辱骂性语言检测模型。
  3. 实验结果表明,机器学习、深度学习和大型语言模型在混合语辱骂性语言检测中表现各异,为未来研究提供了基准。

📝 摘要(中文)

随着社交媒体上多语言用户的日益增多,检测混合语文本中的辱骂性语言变得越来越具有挑战性。混合语交流中,用户在英语和母语之间无缝切换,给传统的辱骂检测模型带来了困难,因为攻击性内容可能依赖于上下文或被语言混合所掩盖。虽然辱骂性语言检测已在英语和印地语等高资源语言中得到广泛探索,但泰卢固语和尼泊尔语等低资源语言仍然代表性不足,导致有效审核方面存在差距。在本研究中,我们引入了一个新的、手动标注的数据集,包含2000条泰卢固语-英语和5000条尼泊尔语-英语混合语评论,这些评论被分为辱骂性和非辱骂性,并从各种社交媒体平台收集。该数据集经过严格的预处理,然后通过多种机器学习(ML)、深度学习(DL)和大型语言模型(LLM)进行评估。我们尝试了包括Logistic回归、随机森林、支持向量机(SVM)、神经网络(NN)、LSTM、CNN和LLM在内的模型,通过超参数调整优化了它们的性能,并使用10折交叉验证和统计显著性检验(t-test)对其进行评估。我们的发现为检测混合语环境中的辱骂性语言的挑战提供了关键见解,并对计算方法进行了比较分析。本研究通过建立泰卢固语-英语和尼泊尔语-英语混合语文本中辱骂性语言检测的基准,有助于推进低资源语言的自然语言处理。该数据集和见解可以帮助开发更强大的多语言社交媒体环境审核策略。

🔬 方法详解

问题定义:论文旨在解决低资源混合语(尼泊尔语-英语和泰卢固语-英语)中辱骂性语言检测的问题。现有方法主要集中在高资源语言上,无法有效处理混合语中存在的语言切换、上下文依赖和文化差异等问题,导致检测准确率低。

核心思路:论文的核心思路是构建高质量的混合语数据集,并利用多种机器学习、深度学习和大型语言模型进行训练和评估,从而为低资源混合语的辱骂性语言检测建立基准。通过比较不同模型的性能,揭示混合语辱骂性语言检测的挑战和机遇。

技术框架:整体框架包括以下几个主要阶段:1) 数据收集:从社交媒体平台收集尼泊尔语-英语和泰卢固语-英语混合语评论。2) 数据标注:人工标注评论为辱骂性和非辱骂性。3) 数据预处理:对数据进行清洗、分词、词干提取等预处理操作。4) 模型训练:使用Logistic回归、随机森林、SVM、神经网络、LSTM、CNN和LLM等模型进行训练。5) 模型评估:使用10折交叉验证和t-test评估模型性能。

关键创新:论文的主要创新在于构建了高质量的尼泊尔语-英语和泰卢固语-英语混合语辱骂性语言检测数据集,填补了低资源混合语领域的空白。此外,论文还对多种机器学习、深度学习和大型语言模型进行了全面的评估和比较,为未来的研究提供了有价值的参考。

关键设计:论文的关键设计包括:1) 数据集的构建过程,包括数据来源、标注规范和质量控制。2) 模型选择和超参数调整,针对不同的模型采用不同的优化策略。3) 评估指标的选择,使用准确率、精确率、召回率和F1值等指标综合评估模型性能。4) 统计显著性检验,使用t-test验证不同模型之间的性能差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究构建了包含2000条泰卢固语-英语和5000条尼泊尔语-英语混合语评论的数据集,并使用多种机器学习和深度学习模型进行了评估。实验结果表明,LSTM和CNN等深度学习模型在混合语辱骂性语言检测中表现出较好的性能,但仍有提升空间。该研究为低资源混合语的辱骂性语言检测提供了重要的基准和参考。

🎯 应用场景

该研究成果可应用于社交媒体平台、在线论坛和评论区等场景,用于自动检测和过滤辱骂性言论,维护健康的网络环境。该数据集和基准模型可以帮助开发者构建更有效的多语言审核系统,减少人工审核的工作量,提高审核效率。未来,该研究可以扩展到其他低资源混合语,并与其他自然语言处理技术相结合,例如情感分析和主题建模,以实现更全面的内容理解和管理。

📄 摘要(原文)

With the growing presence of multilingual users on social media, detecting abusive language in code-mixed text has become increasingly challenging. Code-mixed communication, where users seamlessly switch between English and their native languages, poses difficulties for traditional abuse detection models, as offensive content may be context-dependent or obscured by linguistic blending. While abusive language detection has been extensively explored for high-resource languages like English and Hindi, low-resource languages such as Telugu and Nepali remain underrepresented, leaving gaps in effective moderation. In this study, we introduce a novel, manually annotated dataset of 2 thousand Telugu-English and 5 Nepali-English code-mixed comments, categorized as abusive and non-abusive, collected from various social media platforms. The dataset undergoes rigorous preprocessing before being evaluated across multiple Machine Learning (ML), Deep Learning (DL), and Large Language Models (LLMs). We experimented with models including Logistic Regression, Random Forest, Support Vector Machines (SVM), Neural Networks (NN), LSTM, CNN, and LLMs, optimizing their performance through hyperparameter tuning, and evaluate it using 10-fold cross-validation and statistical significance testing (t-test). Our findings provide key insights into the challenges of detecting abusive language in code-mixed settings and offer a comparative analysis of computational approaches. This study contributes to advancing NLP for low-resource languages by establishing benchmarks for abusive language detection in Telugu-English and Nepali-English code-mixed text. The dataset and insights can aid in the development of more robust moderation strategies for multilingual social media environments.