Sentiment Analysis of Lithuanian Online Reviews Using Large Language Models

📄 arXiv: 2407.19914v1 📥 PDF

作者: Brigita Vileikytė, Mantas Lukoševičius, Lukas Stankevičius

分类: cs.CL, cs.IR, cs.LG

发布日期: 2024-07-29

备注: Accepted at the 29th International Conference on Information Society and University Studies (IVUS 2024)


💡 一句话要点

首次将Transformer模型应用于立陶宛语在线评论情感分析,显著优于GPT-4。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感分析 立陶宛语 Transformer模型 BERT T5 大型语言模型 自然语言处理

📋 核心要点

  1. 传统机器学习方法在立陶宛语情感分析中效果有限,无法有效捕捉语言复杂性和情感主观性。
  2. 论文提出微调预训练多语言大型语言模型BERT和T5,以解决立陶宛语情感分析的难题。
  3. 实验结果表明,微调后的模型在识别明确情感时表现出色,显著优于GPT-4等通用LLM。

📝 摘要(中文)

情感分析是自然语言处理(NLP)中一个被广泛研究的领域,由于自动化解决方案的出现而引起了极大的兴趣。尽管如此,由于语言固有的复杂性和情感的主观性,这项任务仍然具有挑战性。对于像立陶宛语这样研究较少、资源较少的语言来说,挑战性更大。我们对现有立陶宛语NLP研究的回顾表明,传统的机器学习方法和分类算法对于这项任务的有效性有限。在这项工作中,我们处理了来自多个领域的立陶宛语五星级在线评论的情感分析,我们收集并清理了这些评论。我们首次将Transformer模型应用于这项任务,探索了预训练的多语言大型语言模型(LLM)的能力,特别关注于微调BERT和T5模型。鉴于这项任务固有的难度,微调后的模型表现相当好,特别是当情感本身不太模糊时:最受欢迎的一星和五星评论的测试识别准确率分别为80.74%和89.61%。它们显著优于当前商业最先进的通用LLM GPT-4。我们公开分享我们微调后的LLM。

🔬 方法详解

问题定义:论文旨在解决立陶宛语在线评论的情感分析问题。现有方法,特别是传统的机器学习方法,在处理立陶宛语这种低资源语言时,由于其语言复杂性和情感表达的细微差别,表现出有限的有效性。现有商业LLM在立陶宛语情感分析任务上的表现也并不理想。

核心思路:论文的核心思路是利用预训练的多语言大型语言模型(LLM)的强大能力,通过微调的方式,使其适应立陶宛语情感分析的任务。这种方法旨在利用LLM已经学习到的通用语言知识,并将其迁移到立陶宛语的具体情感表达上,从而提高情感分析的准确性和鲁棒性。

技术框架:整体框架包括数据收集与清洗、模型选择与微调、以及性能评估三个主要阶段。首先,从多个领域收集立陶宛语五星级在线评论数据,并进行清洗和预处理。然后,选择预训练的BERT和T5模型作为基础模型,并使用收集到的立陶宛语评论数据进行微调。最后,使用测试集评估微调后模型的性能,并与现有方法(包括GPT-4)进行比较。

关键创新:该论文的关键创新在于首次将Transformer模型应用于立陶宛语在线评论的情感分析。与传统的机器学习方法相比,Transformer模型能够更好地捕捉语言的上下文信息和情感表达的细微差别。此外,通过微调预训练的多语言LLM,可以有效地利用已有的语言知识,从而减少对大量标注数据的依赖。

关键设计:论文的关键设计包括选择合适的预训练模型(BERT和T5),以及设计有效的微调策略。具体的技术细节包括:使用交叉熵损失函数进行训练,调整学习率和batch size等超参数,以及采用适当的正则化方法防止过拟合。此外,论文还特别关注了数据清洗和预处理,以确保数据的质量和一致性。

📊 实验亮点

实验结果表明,微调后的BERT和T5模型在立陶宛语情感分析任务上表现出色,尤其是在识别明确情感时。最受欢迎的一星和五星评论的测试识别准确率分别达到80.74%和89.61%。更重要的是,这些模型显著优于当前商业最先进的通用LLM GPT-4,证明了该方法的有效性和优越性。

🎯 应用场景

该研究成果可应用于立陶宛语在线评论的情感分析,帮助企业了解消费者对产品和服务的评价,从而改进产品设计和服务质量。此外,该方法还可以推广到其他低资源语言的情感分析任务中,具有广泛的应用前景和实际价值。未来,可以进一步探索更复杂的模型结构和训练方法,以提高情感分析的准确性和鲁棒性。

📄 摘要(原文)

Sentiment analysis is a widely researched area within Natural Language Processing (NLP), attracting significant interest due to the advent of automated solutions. Despite this, the task remains challenging because of the inherent complexity of languages and the subjective nature of sentiments. It is even more challenging for less-studied and less-resourced languages such as Lithuanian. Our review of existing Lithuanian NLP research reveals that traditional machine learning methods and classification algorithms have limited effectiveness for the task. In this work, we address sentiment analysis of Lithuanian five-star-based online reviews from multiple domains that we collect and clean. We apply transformer models to this task for the first time, exploring the capabilities of pre-trained multilingual Large Language Models (LLMs), specifically focusing on fine-tuning BERT and T5 models. Given the inherent difficulty of the task, the fine-tuned models perform quite well, especially when the sentiments themselves are less ambiguous: 80.74% and 89.61% testing recognition accuracy of the most popular one- and five-star reviews respectively. They significantly outperform current commercial state-of-the-art general-purpose LLM GPT-4. We openly share our fine-tuned LLMs online.