A Comparative Evaluation of Large Language Models for Persian Sentiment Analysis and Emotion Detection in Social Media Texts

📄 arXiv: 2509.14922v1 📥 PDF

作者: Kian Tohidi, Kia Dashtipour, Simone Rebora, Sevda Pourfaramarz

分类: cs.CL

发布日期: 2025-09-18

备注: 19 pages, 8 Figures, 9 Tables


💡 一句话要点

对比评估大型语言模型在波斯语社交媒体文本情感分析和情绪检测中的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感分析 情绪检测 波斯语 社交媒体文本

📋 核心要点

  1. 现有LLM在跨语言情感分析和情绪检测方面的性能评估不足,尤其缺乏对波斯语的深入研究。
  2. 该研究通过统一的实验设计,在平衡的波斯语数据集上,直接比较了四种先进LLM的性能。
  3. 实验结果表明,所有模型均达到可接受水平,GPT-4o准确率略高,Gemini 2.0 Flash成本效益最佳。

📝 摘要(中文)

本研究对四种先进的大型语言模型(LLM)——Claude 3.7 Sonnet、DeepSeek-V3、Gemini 2.0 Flash 和 GPT-4o——在波斯语社交媒体文本情感分析和情绪检测方面的性能进行了全面的对比评估。近年来,LLM之间的对比分析显著增加,但大多数分析都是针对英语任务进行的,这导致对跨语言性能模式的理解存在差距。本研究通过严格的实验设计解决了这些差距,使用了包含900个文本的情感分析(积极、消极、中性)和1800个文本的情绪检测(愤怒、恐惧、快乐、仇恨、悲伤、惊讶)的平衡波斯语数据集。主要重点是通过使用一致的提示、统一的处理参数以及分析精确率、召回率、F1分数等性能指标以及错误分类模式,从而实现不同模型之间的直接和公平的比较。结果表明,所有模型都达到了可接受的性能水平,并且对最佳三个模型的统计比较表明它们之间没有显著差异。然而,GPT-4o在两项任务中都表现出略高的原始准确率值,而Gemini 2.0 Flash证明是最具成本效益的。研究结果表明,与情感分析任务相比,情绪检测任务对所有模型都更具挑战性,并且错误分类模式可能代表波斯语文本中的一些挑战。这些发现为波斯语NLP应用建立了性能基准,并为基于准确性、效率和成本考虑因素的模型选择提供了实用指导,同时揭示了在多语言AI系统部署中需要考虑的文化和语言挑战。

🔬 方法详解

问题定义:论文旨在评估大型语言模型在波斯语社交媒体文本情感分析和情绪检测任务中的性能。现有方法主要集中在英语等高资源语言上,缺乏对波斯语等低资源语言的深入研究和性能基准。此外,不同模型之间的公平比较也面临挑战,因为prompt设计、处理参数等因素会影响结果。

核心思路:论文的核心思路是通过构建平衡的波斯语数据集,并采用统一的prompt和处理参数,对四种先进的LLM进行直接和公平的比较。通过分析模型的性能指标和错误分类模式,揭示模型在波斯语情感分析和情绪检测任务中的优势和不足。

技术框架:该研究的技术框架主要包括以下几个步骤:1)构建平衡的波斯语数据集,包含情感分析(积极、消极、中性)和情绪检测(愤怒、恐惧、快乐、仇恨、悲伤、惊讶)两个任务;2)选择四种先进的LLM:Claude 3.7 Sonnet、DeepSeek-V3、Gemini 2.0 Flash 和 GPT-4o;3)设计统一的prompt,并采用一致的处理参数;4)使用精确率、召回率、F1分数等指标评估模型的性能;5)分析模型的错误分类模式,揭示模型在波斯语处理中的挑战。

关键创新:该研究的关键创新在于:1)针对波斯语情感分析和情绪检测任务,构建了平衡且高质量的数据集;2)采用统一的实验设计,实现了不同LLM之间的直接和公平的比较;3)深入分析了模型的错误分类模式,揭示了波斯语处理中的语言和文化挑战。

关键设计:论文的关键设计包括:1)数据集的平衡性,确保各类情感和情绪的样本数量一致,避免模型偏向;2)prompt的设计,力求简洁明了,避免引入额外的偏差;3)性能指标的选择,综合考虑了精确率、召回率和F1分数,全面评估模型的性能;4)错误分类模式的分析,通过人工分析错误分类的样本,揭示模型在波斯语处理中的挑战。

📊 实验亮点

实验结果表明,所有模型在波斯语情感分析和情绪检测任务中均达到可接受的性能水平。GPT-4o在两项任务中均表现出略高的原始准确率,但与DeepSeek-V3和Claude 3.7 Sonnet相比,统计上没有显著差异。Gemini 2.0 Flash在成本效益方面表现突出。情绪检测任务对所有模型来说都比情感分析任务更具挑战性。

🎯 应用场景

该研究成果可应用于波斯语社交媒体舆情监控、用户情感分析、智能客服等领域。通过选择合适的LLM,可以提高波斯语NLP应用的准确性和效率,从而更好地理解和响应波斯语用户的需求。此外,该研究也为多语言AI系统的开发和部署提供了参考,有助于解决跨语言情感分析和情绪检测中的挑战。

📄 摘要(原文)

This study presents a comprehensive comparative evaluation of four state-of-the-art Large Language Models (LLMs)--Claude 3.7 Sonnet, DeepSeek-V3, Gemini 2.0 Flash, and GPT-4o--for sentiment analysis and emotion detection in Persian social media texts. Comparative analysis among LLMs has witnessed a significant rise in recent years, however, most of these analyses have been conducted on English language tasks, creating gaps in understanding cross-linguistic performance patterns. This research addresses these gaps through rigorous experimental design using balanced Persian datasets containing 900 texts for sentiment analysis (positive, negative, neutral) and 1,800 texts for emotion detection (anger, fear, happiness, hate, sadness, surprise). The main focus was to allow for a direct and fair comparison among different models, by using consistent prompts, uniform processing parameters, and by analyzing the performance metrics such as precision, recall, F1-scores, along with misclassification patterns. The results show that all models reach an acceptable level of performance, and a statistical comparison of the best three models indicates no significant differences among them. However, GPT-4o demonstrated a marginally higher raw accuracy value for both tasks, while Gemini 2.0 Flash proved to be the most cost-efficient. The findings indicate that the emotion detection task is more challenging for all models compared to the sentiment analysis task, and the misclassification patterns can represent some challenges in Persian language texts. These findings establish performance benchmarks for Persian NLP applications and offer practical guidance for model selection based on accuracy, efficiency, and cost considerations, while revealing cultural and linguistic challenges that require consideration in multilingual AI system deployment.