Dynamic Sentiment Analysis with Local Large Language Models using Majority Voting: A Study on Factors Affecting Restaurant Evaluation
作者: Junichiro Niimi
分类: cs.CL, cs.IR
发布日期: 2024-07-18
备注: This manuscript is under peer review
💡 一句话要点
提出基于多数投票的局部大语言模型动态情感分析方法,提升餐厅评价的鲁棒性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 情感分析 大语言模型 多数投票 用户生成内容 餐厅评价
📋 核心要点
- 现有情感分析研究对LLM超参数与准确率的关系缺乏深入考察,且忽略了LLM结果的可变性和可重复性。
- 本研究提出一种基于局部LLM和多数投票机制的情感分析模型,模拟人工标注过程,提升结果的稳健性。
- 实验表明,多次使用中等规模模型进行多数投票比单次使用大型模型能产生更可靠的餐厅评价情感分析结果。
📝 摘要(中文)
本文研究了在线平台用户生成内容(UGC)中消费者对产品和服务的偏好。随着大型语言模型(LLMs)的发展,一些研究利用这些模型进行标注和情感分析。然而,LLMs的准确性与其超参数之间的关系尚未得到充分检验。此外,现有文献很少考虑LLMs每次试验结果的可变性和可重复性问题。由于实际的人工标注使用多数投票来解决标注者之间的分歧,本研究将多数投票机制引入到使用局部LLMs的情感分析模型中。通过对餐厅评价的在线评论进行的一系列三项分析,我们证明了使用中等规模模型进行多次尝试的多数投票比使用大型模型进行单次尝试产生更稳健的结果。此外,我们进行了进一步分析,以研究每个方面对整体评价的影响。
🔬 方法详解
问题定义:现有基于LLM的情感分析方法,在超参数选择和结果稳定性方面存在不足。具体来说,不同超参数设置对情感分析的准确性影响不明,且单次LLM运行结果可能存在偏差,缺乏可重复性。这些问题限制了LLM在实际情感分析任务中的可靠应用。
核心思路:本研究的核心思路是借鉴人工标注中的多数投票机制,通过多次运行局部LLM,并采用多数投票来综合多次结果,从而降低单次运行的偶然性误差,提高情感分析结果的鲁棒性和稳定性。这种方法旨在模拟人工标注过程,解决LLM结果的可变性和可重复性问题。
技术框架:整体框架包括以下几个主要步骤:1) 数据收集:收集餐厅评价的在线评论数据。2) 局部LLM配置:选择并配置中等规模的局部LLM。3) 多次运行:使用相同的LLM和输入数据,进行多次独立的情感分析尝试。4) 多数投票:对每次尝试的结果进行多数投票,确定最终的情感极性。5) 结果分析:分析多数投票结果,并评估不同因素对餐厅整体评价的影响。
关键创新:本研究的关键创新在于将多数投票机制引入到基于局部LLM的情感分析中。与传统的单次LLM运行方法相比,该方法能够有效降低结果的随机性,提高情感分析的稳定性和可靠性。此外,该研究还关注了LLM超参数对情感分析结果的影响,并进行了深入的实验分析。
关键设计:关键设计包括:1) 局部LLM的选择:选择中等规模的LLM,在计算资源和性能之间取得平衡。2) 运行次数的确定:通过实验确定合适的运行次数,以保证多数投票的有效性。3) 投票策略:采用简单的多数投票策略,即选择出现次数最多的情感极性作为最终结果。4) 评价指标:使用准确率、召回率等指标评估情感分析的性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用中等规模模型进行多次尝试的多数投票比使用大型模型进行单次尝试产生更稳健的结果。具体来说,该方法在餐厅评价情感分析任务中,相比于单次运行的大型LLM,能够显著提高情感分析的准确性和稳定性,降低结果的方差。
🎯 应用场景
该研究成果可应用于各种在线评论的情感分析,例如电商产品评价、电影评论、新闻评论等。通过提升情感分析的准确性和鲁棒性,可以帮助企业更好地了解消费者偏好,优化产品和服务,并为舆情监控提供更可靠的数据支持。未来,该方法可以扩展到其他自然语言处理任务,例如文本分类、信息抽取等。
📄 摘要(原文)
User-generated contents (UGCs) on online platforms allow marketing researchers to understand consumer preferences for products and services. With the advance of large language models (LLMs), some studies utilized the models for annotation and sentiment analysis. However, the relationship between the accuracy and the hyper-parameters of LLMs is yet to be thoroughly examined. In addition, the issues of variability and reproducibility of results from each trial of LLMs have rarely been considered in existing literature. Since actual human annotation uses majority voting to resolve disagreements among annotators, this study introduces a majority voting mechanism to a sentiment analysis model using local LLMs. By a series of three analyses of online reviews on restaurant evaluations, we demonstrate that majority voting with multiple attempts using a medium-sized model produces more robust results than using a large model with a single attempt. Furthermore, we conducted further analysis to investigate the effect of each aspect on the overall evaluation.