Performance Evaluation of Emotion Classification in Japanese Using RoBERTa and DeBERTa

📄 arXiv: 2505.00013v1 📥 PDF

作者: Yoichi Takenaka

分类: cs.CL, cs.AI

发布日期: 2025-04-22

备注: 14 pages, 3 tables, 3 appendices. Submitted to New Generation Computing. Includes comparisons between fine-tuned PLMs and LLMs on Japanese emotion classification. Code available at https://pypi.org/project/deberta-emotion-predictor/


💡 一句话要点

利用DeBERTa-v3-large模型实现高精度日语情感分类,并开源模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 日语情感分类 DeBERTa-v3 预训练语言模型 WRIME语料库 二元分类

📋 核心要点

  1. 现有日语情感分类模型受限于资源稀缺和类别不平衡,导致性能不佳,难以满足实际应用需求。
  2. 通过将读者平均情感强度转化为二元标签,并微调预训练语言模型,提升日语情感分类的准确率。
  3. 实验表明,DeBERTa-v3-large模型在日语情感分类任务中表现最佳,显著优于其他模型,并已开源。

📝 摘要(中文)

背景:社交媒体监控和客户反馈分析等实际应用需要精确的日语文本情感检测,但资源稀缺和类别不平衡阻碍了模型性能。目标:本研究旨在构建一个高精度模型,用于预测日语句子中八种Plutchik情感的存在与否。方法:使用WRIME语料库,我们将读者平均强度得分转换为二元标签,并微调四个预训练语言模型(BERT、RoBERTa、DeBERTa-v3-base、DeBERTa-v3-large)。为了提供参考,我们还评估了两个大型语言模型(TinySwallow-1.5B-Instruct和ChatGPT-4o)。准确率和F1分数作为评估指标。结果:DeBERTa-v3-large获得了最佳的平均准确率(0.860)和F1分数(0.662),优于所有其他模型。它在高度频繁的情感(例如,喜悦、期待)和低频情感(例如,愤怒、信任)上都保持了稳健的F1分数。大型语言模型表现较差,ChatGPT-4o和TinySwallow-1.5B-Instruct的平均F1分数分别为0.527和0.292。结论:微调后的DeBERTa-v3-large模型目前为日语二元情感分类提供了最可靠的解决方案。我们将此模型作为可使用pip安装的软件包发布(pip install deberta-emotion-predictor)。未来的工作应增加稀有情感的数据,减小模型尺寸,并探索提示工程以提高大型语言模型的性能。

🔬 方法详解

问题定义:论文旨在解决日语文本情感分类问题,具体来说是判断一段日语文本中是否存在八种Plutchik情感(例如喜悦、悲伤、愤怒等)。现有方法,特别是基于传统机器学习的方法,在日语情感分类任务中面临资源稀缺和类别不平衡的挑战,导致模型泛化能力不足。

核心思路:论文的核心思路是利用预训练语言模型(PLM)的强大表征能力,通过微调的方式,使其适应日语情感分类任务。这种方法能够有效利用PLM在大量文本数据上学习到的通用语言知识,从而克服日语情感分类数据稀缺的问题。同时,通过选择合适的PLM架构(如DeBERTa-v3-large),可以进一步提升模型性能。

技术框架:整体流程包括以下几个步骤:1) 数据准备:使用WRIME语料库,将读者平均情感强度得分转化为二元标签,表示句子中是否存在某种情感。2) 模型选择:选择BERT、RoBERTa、DeBERTa-v3-base和DeBERTa-v3-large作为基础模型。3) 模型微调:使用标注好的数据对预训练模型进行微调,使其适应情感分类任务。4) 模型评估:使用准确率和F1分数作为评估指标,比较不同模型的性能。同时,论文还评估了两个大型语言模型(LLM):TinySwallow-1.5B-Instruct和ChatGPT-4o。

关键创新:论文的关键创新在于验证了DeBERTa-v3-large模型在日语情感分类任务中的有效性,并开源了微调后的模型,方便其他研究者和开发者使用。此外,论文还对比了不同PLM和LLM在日语情感分类任务中的表现,为后续研究提供了参考。与现有方法相比,该方法利用了大规模预训练模型的优势,显著提升了情感分类的准确率。

关键设计:论文的关键设计包括:1) 使用WRIME语料库,该语料库包含了读者对日语文本情感强度的标注,为情感分类任务提供了高质量的数据。2) 将情感强度得分转化为二元标签,简化了情感分类任务,使其更易于处理。3) 选择DeBERTa-v3-large作为主要模型,该模型在自然语言处理任务中表现出色。4) 使用准确率和F1分数作为评估指标,全面评估模型的性能。

📊 实验亮点

实验结果表明,DeBERTa-v3-large模型在日语情感分类任务中取得了最佳性能,平均准确率达到0.860,平均F1分数达到0.662,显著优于其他模型,包括BERT、RoBERTa、DeBERTa-v3-base以及两个大型语言模型(ChatGPT-4o和TinySwallow-1.5B-Instruct)。尤其值得一提的是,DeBERTa-v3-large在低频情感上的表现也十分稳健。

🎯 应用场景

该研究成果可广泛应用于社交媒体情感分析、客户反馈分析、舆情监控等领域。通过准确识别日语文本中的情感,可以帮助企业更好地了解用户需求,及时发现潜在问题,并做出相应的调整。此外,该模型还可以用于开发智能客服系统,提升用户体验。开源的模型也为相关研究提供了便利,促进了日语自然语言处理的发展。

📄 摘要(原文)

Background Practical applications such as social media monitoring and customer-feedback analysis require accurate emotion detection for Japanese text, yet resource scarcity and class imbalance hinder model performance. Objective This study aims to build a high-accuracy model for predicting the presence or absence of eight Plutchik emotions in Japanese sentences. Methods Using the WRIME corpus, we transform reader-averaged intensity scores into binary labels and fine-tune four pre-trained language models (BERT, RoBERTa, DeBERTa-v3-base, DeBERTa-v3-large). For context, we also assess two large language models (TinySwallow-1.5B-Instruct and ChatGPT-4o). Accuracy and F1-score serve as evaluation metrics. Results DeBERTa-v3-large attains the best mean accuracy (0.860) and F1-score (0.662), outperforming all other models. It maintains robust F1 across both high-frequency emotions (e.g., Joy, Anticipation) and low-frequency emotions (e.g., Anger, Trust). The LLMs lag, with ChatGPT-4o and TinySwallow-1.5B-Instruct scoring 0.527 and 0.292 in mean F1, respectively. Conclusion The fine-tuned DeBERTa-v3-large model currently offers the most reliable solution for binary emotion classification in Japanese. We release this model as a pip-installable package (pip install deberta-emotion-predictor). Future work should augment data for rare emotions, reduce model size, and explore prompt engineering to improve LLM performance. This manuscript is under review for possible publication in New Generation Computing.