ViMRHP: A Vietnamese Benchmark Dataset for Multimodal Review Helpfulness Prediction via Human-AI Collaborative Annotation

📄 arXiv: 2505.07416v2 📥 PDF

作者: Truc Mai-Thanh Nguyen, Dat Minh Nguyen, Son T. Luu, Kiet Van Nguyen

分类: cs.CL

发布日期: 2025-05-12 (更新: 2025-07-04)

备注: Accepted at NLDB 2025

DOI: 10.1007/978-3-031-97141-9_20

🔗 代码/项目: GITHUB


💡 一句话要点

提出ViMRHP:一个用于越南语多模态评论有用性预测的人工智能协同标注基准数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 评论有用性预测 越南语 AI辅助标注 低资源语言 人机协作 推荐系统

📋 核心要点

  1. 现有MRHP数据集主要集中于英语和印尼语,缺乏对越南语等低资源语言的支持,限制了相关研究。
  2. 论文提出ViMRHP数据集,利用AI辅助人工标注,显著降低标注时间和成本,同时保证数据质量。
  3. 实验评估了基于人工标注和AI标注的基线模型,分析了AI标注的局限性,并公开了数据集。

📝 摘要(中文)

多模态评论有用性预测(MRHP)是推荐系统,特别是电子商务平台中的一项重要任务。确定用户生成评论的有用性可以增强用户体验并改善消费者决策。然而,现有的数据集主要集中在英语和印度尼西亚语上,导致缺乏语言多样性,特别是对于越南语等低资源语言。在本文中,我们介绍了ViMRHP(越南语多模态评论有用性预测),这是一个用于越南语MRHP任务的大规模基准数据集。该数据集涵盖四个领域,包含2K个产品和46K条评论。同时,大规模数据集需要大量的时间和成本。为了优化标注过程,我们利用人工智能来协助标注者构建ViMRHP数据集。借助人工智能的帮助,标注时间得以减少(每个任务90到120秒减少到每个任务20到40秒),同时保持数据质量并将总成本降低约65%。然而,AI生成的注释在复杂的注释任务中仍然存在局限性,我们通过详细的性能分析进一步研究了这一点。在我们在ViMRHP上的实验中,我们评估了人类验证和AI生成的注释上的基线模型,以评估它们的质量差异。ViMRHP数据集可在https://github.com/trng28/ViMRHP公开获取。

🔬 方法详解

问题定义:论文旨在解决越南语多模态评论有用性预测(MRHP)任务缺乏大规模数据集的问题。现有方法依赖于英语或印尼语数据集,无法直接应用于越南语场景,且人工构建大规模数据集成本高昂。

核心思路:论文的核心思路是利用AI辅助人工标注,以降低构建大规模越南语MRHP数据集的成本和时间。通过让人工智能模型预先标注数据,然后由人工进行校正和验证,从而提高标注效率。

技术框架:ViMRHP数据集的构建流程主要包含以下几个阶段:1) 数据收集:从越南语电商平台收集产品和用户评论数据,包括文本和图像信息。2) AI辅助标注:使用预训练的AI模型(具体模型未知)对评论的有用性进行初步标注。3) 人工校正与验证:人工标注员对AI标注结果进行审核、修改和确认,确保数据质量。4) 数据集发布:将最终标注好的数据集公开,供研究人员使用。

关键创新:论文的关键创新在于将AI辅助标注应用于越南语MRHP数据集的构建,探索了AI在低资源语言数据标注中的潜力。通过人机协作,显著降低了标注成本和时间,同时保证了数据质量。

关键设计:论文中关于AI模型的具体选择、训练方式,以及人工校正的具体流程等技术细节描述不足,属于未知信息。但可以推测,AI模型可能采用了某种多模态融合的方法,例如将文本和图像特征进行联合建模,以预测评论的有用性。损失函数和网络结构等细节也未明确说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,AI辅助标注可以显著降低标注时间和成本(降低约65%),同时保持数据质量。通过对比人工标注和AI标注的基线模型性能,分析了AI标注的局限性,为后续研究提供了参考。

🎯 应用场景

该研究成果可应用于越南语电商平台的推荐系统,提升用户体验,帮助消费者做出更明智的购买决策。此外,该数据集和AI辅助标注方法也可推广到其他低资源语言的多模态数据标注任务中,具有广泛的应用前景。

📄 摘要(原文)

Multimodal Review Helpfulness Prediction (MRHP) is an essential task in recommender systems, particularly in E-commerce platforms. Determining the helpfulness of user-generated reviews enhances user experience and improves consumer decision-making. However, existing datasets focus predominantly on English and Indonesian, resulting in a lack of linguistic diversity, especially for low-resource languages such as Vietnamese. In this paper, we introduce ViMRHP (Vietnamese Multimodal Review Helpfulness Prediction), a large-scale benchmark dataset for MRHP task in Vietnamese. This dataset covers four domains, including 2K products with 46K reviews. Meanwhile, a large-scale dataset requires considerable time and cost. To optimize the annotation process, we leverage AI to assist annotators in constructing the ViMRHP dataset. With AI assistance, annotation time is reduced (90 to 120 seconds per task down to 20 to 40 seconds per task) while maintaining data quality and lowering overall costs by approximately 65%. However, AI-generated annotations still have limitations in complex annotation tasks, which we further examine through a detailed performance analysis. In our experiment on ViMRHP, we evaluate baseline models on human-verified and AI-generated annotations to assess their quality differences. The ViMRHP dataset is publicly available at https://github.com/trng28/ViMRHP