Leveraging Encoder-only Large Language Models for Mobile App Review Feature Extraction
作者: Quim Motger, Alessio Miaschi, Felice Dell'Orletta, Xavier Franch, Jordi Marco
分类: cs.CL, cs.SE
发布日期: 2024-08-02 (更新: 2025-02-05)
备注: 46 pages, 7 tables, 11 figures
DOI: 10.1007/s10664-025-10660-y
💡 一句话要点
利用Encoder-only大语言模型提升移动应用评论特征抽取性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动应用评论 特征提取 Encoder-only模型 大语言模型 Token分类 实例选择 预训练 微调
📋 核心要点
- 移动应用评论分析面临低质量、主观性和噪声等挑战,特征提取是关键但困难的任务。
- 利用Encoder-only大语言模型,通过扩展预训练和实例选择优化微调,提升特征提取效果。
- 实验表明,该方法提高了特征提取的精确率和召回率,并提升了性能效率。
📝 摘要(中文)
移动应用评论分析面临用户生成内容质量低、主观偏见和噪声大等独特挑战。从这些评论中提取特征对于诸如特征优先级排序和情感分析等任务至关重要,但仍然是一项具有挑战性的任务。同时,基于Transformer架构的Encoder-only模型在多个软件工程流程的分类和信息提取任务中显示出良好的效果。本研究探索了Encoder-only大语言模型可以增强移动应用评论特征抽取的假设。通过利用来自工业环境的众包标注,我们将特征提取重新定义为有监督的token分类任务。我们的方法包括使用大量的用户评论语料库扩展这些模型的预训练,以提高上下文理解能力,并采用实例选择技术来优化模型微调。实验评估表明,该方法提高了提取特征的精确率和召回率,并提高了性能效率。主要贡献包括一种新的特征提取方法、带标注的数据集、扩展的预训练模型以及用于经济高效微调的实例选择机制。这项研究为将大型语言模型应用于移动应用评论中的自然语言处理任务提供了实用的方法和经验证据,从而提高了特征提取的性能。
🔬 方法详解
问题定义:移动应用评论的特征提取任务,旨在从用户评论中识别出重要的产品特征。现有方法难以有效处理评论中存在的低质量、主观性和噪声问题,导致特征提取的准确率和召回率较低。
核心思路:将特征提取任务重新定义为有监督的token分类任务,利用Encoder-only大语言模型强大的上下文理解能力,通过预训练和微调来提升模型在特定任务上的性能。通过实例选择,降低微调成本,提高效率。
技术框架:该方法主要包含三个阶段:1) 使用大规模用户评论语料库对Encoder-only大语言模型进行扩展预训练,增强模型对移动应用评论领域的理解;2) 将特征提取任务转化为token分类任务,利用众包标注数据构建训练集;3) 使用实例选择技术筛选出最具代表性的训练样本,对预训练模型进行微调,优化模型性能。
关键创新:1) 将特征提取任务转化为token分类任务,更有效地利用大语言模型的优势;2) 提出了一种基于实例选择的微调方法,降低了计算成本,提高了微调效率;3) 利用大规模用户评论语料库进行扩展预训练,提升了模型在特定领域的性能。
关键设计:实例选择的具体方法未知,论文中可能使用了某种启发式算法或机器学习模型来选择最具代表性的训练样本。损失函数可能采用了交叉熵损失函数,用于token分类任务。具体的网络结构细节取决于所使用的Encoder-only大语言模型,例如BERT或RoBERTa等。
🖼️ 关键图片
📊 实验亮点
该研究通过实验验证了Encoder-only大语言模型在移动应用评论特征提取任务中的有效性,提高了特征提取的精确率和召回率,并提升了性能效率。具体性能数据和对比基线未知,但研究强调了在工业环境下的实际应用价值。
🎯 应用场景
该研究成果可应用于移动应用商店的评论分析,帮助开发者快速了解用户对产品的关注点,进行产品改进和功能优化。此外,该方法也可推广到其他用户生成内容的分析场景,如电商评论、社交媒体评论等,具有广泛的应用前景和实际价值。
📄 摘要(原文)
Mobile app review analysis presents unique challenges due to the low quality, subjective bias, and noisy content of user-generated documents. Extracting features from these reviews is essential for tasks such as feature prioritization and sentiment analysis, but it remains a challenging task. Meanwhile, encoder-only models based on the Transformer architecture have shown promising results for classification and information extraction tasks for multiple software engineering processes. This study explores the hypothesis that encoder-only large language models can enhance feature extraction from mobile app reviews. By leveraging crowdsourced annotations from an industrial context, we redefine feature extraction as a supervised token classification task. Our approach includes extending the pre-training of these models with a large corpus of user reviews to improve contextual understanding and employing instance selection techniques to optimize model fine-tuning. Empirical evaluations demonstrate that this method improves the precision and recall of extracted features and enhances performance efficiency. Key contributions include a novel approach to feature extraction, annotated datasets, extended pre-trained models, and an instance selection mechanism for cost-effective fine-tuning. This research provides practical methods and empirical evidence in applying large language models to natural language processing tasks within mobile app reviews, offering improved performance in feature extraction.