PoPreRo: A New Dataset for Popularity Prediction of Romanian Reddit Posts

📄 arXiv: 2407.04541v2 📥 PDF

作者: Ana-Cristina Rogoz, Maria Ilinca Nechita, Radu Tudor Ionescu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-07-05 (更新: 2024-11-24)

备注: Accepted at ICPR 2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出PoPreRo:一个用于预测罗马尼亚Reddit帖子受欢迎程度的新数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社交媒体分析 受欢迎程度预测 罗马尼亚语 Reddit 数据集构建 自然语言处理 文本分类

📋 核心要点

  1. 现有方法缺乏针对罗马尼亚语Reddit帖子的受欢迎程度预测数据集,限制了相关研究的进展。
  2. 论文构建了PoPreRo数据集,包含来自五个罗马尼亚subreddit的28,107个帖子样本,为该领域的研究提供了数据基础。
  3. 实验表明,即使是表现最佳的模型在PoPreRo数据集上的准确率也仅为61.35%,表明该任务具有挑战性,需要进一步研究。

📝 摘要(中文)

我们提出了PoPreRo,这是首个用于预测罗马尼亚Reddit帖子受欢迎程度的数据集。PoPreRo数据集包含来自罗马尼亚五个不同subreddit的帖子样本,总计28,107个数据样本。除了这个新数据集,我们还提供了一组有竞争力的模型,作为未来研究的基线。有趣的是,得分最高的模型在测试集上达到了61.35%的准确率和60.60%的宏平均F1分数,这表明在PoPreRo上进行受欢迎程度预测任务非常具有挑战性。基于Falcon-7B大型语言模型的少量样本提示的进一步研究也指向了相同的结论。因此,我们相信PoPreRo是一个有价值的资源,可用于评估模型在预测罗马尼亚社交媒体帖子受欢迎程度方面的能力。我们在https://github.com/ana-rogoz/PoPreRo上发布了我们的数据集。

🔬 方法详解

问题定义:论文旨在解决罗马尼亚语Reddit帖子受欢迎程度预测的问题。现有方法缺乏专门针对罗马尼亚语的数据集,无法有效评估和提升模型在该领域的性能。已有的英文数据集无法直接迁移到罗马尼亚语,因为语言和文化差异会导致受欢迎程度的决定因素不同。

核心思路:论文的核心思路是构建一个高质量的罗马尼亚语Reddit帖子数据集,并提供基线模型,从而促进该领域的研究。通过提供真实的数据,研究人员可以开发和评估更有效的模型,从而更好地理解和预测罗马尼亚语社交媒体内容的受欢迎程度。

技术框架:论文主要包含数据集构建和基线模型评估两个阶段。数据集构建阶段涉及从Reddit的五个罗马尼亚语subreddit收集帖子数据,并进行清洗和预处理。基线模型评估阶段则使用多种机器学习模型(具体模型未知)在数据集上进行训练和测试,并报告性能指标。

关键创新:该论文的关键创新在于构建了首个专门用于罗马尼亚语Reddit帖子受欢迎程度预测的数据集PoPreRo。该数据集的发布填补了该领域的空白,为未来的研究提供了宝贵的资源。

关键设计:论文中关于数据集构建和模型评估的具体技术细节(如数据清洗方法、特征工程、模型选择、参数设置、损失函数等)未知。但可以推测,数据集的构建需要考虑数据平衡性、噪声过滤等问题。模型评估可能采用了常用的分类指标,如准确率、F1分数等。

📊 实验亮点

实验结果显示,最佳模型在PoPreRo数据集上的准确率为61.35%,宏平均F1分数为60.60%。这一结果表明,罗马尼亚语Reddit帖子受欢迎程度预测任务具有相当的挑战性,即使使用现有模型也难以达到较高的预测精度,需要进一步的研究和模型优化。

🎯 应用场景

该研究成果可应用于社交媒体内容推荐、舆情分析、网络营销等领域。通过准确预测帖子的受欢迎程度,可以帮助用户发现感兴趣的内容,优化内容推荐算法,并为营销活动提供数据支持。未来,该数据集可以促进更多针对罗马尼亚语社交媒体内容的研究。

📄 摘要(原文)

We introduce PoPreRo, the first dataset for Popularity Prediction of Romanian posts collected from Reddit. The PoPreRo dataset includes a varied compilation of post samples from five distinct subreddits of Romania, totaling 28,107 data samples. Along with our novel dataset, we introduce a set of competitive models to be used as baselines for future research. Interestingly, the top-scoring model achieves an accuracy of 61.35% and a macro F1 score of 60.60% on the test set, indicating that the popularity prediction task on PoPreRo is very challenging. Further investigations based on few-shot prompting the Falcon-7B Large Language Model also point in the same direction. We thus believe that PoPreRo is a valuable resource that can be used to evaluate models on predicting the popularity of social media posts in Romanian. We release our dataset at https://github.com/ana-rogoz/PoPreRo.