Utilizing Large Language Models to Synthesize Product Desirability Datasets

📄 arXiv: 2411.13485v2 📥 PDF

作者: John D. Hastings, Sherri Weitl-Harms, Joseph Doty, Zachary J. Myers, Warren Thompson

分类: cs.CL, cs.AI, cs.LG

发布日期: 2024-11-20 (更新: 2024-11-22)

备注: 9 pages, 2 figures, 6 tables, updated author list

期刊: 2024 IEEE International Conference on Big Data (IEEE BigData 2024)

DOI: 10.1109/BigData62323.2024.10826001


💡 一句话要点

利用大语言模型合成产品吸引力数据集,降低用户情感分析成本

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 合成数据 产品吸引力 用户情感分析 数据生成 情感一致性 文本多样性

📋 核心要点

  1. 现有产品吸引力测试依赖人工标注数据,成本高昂且难以扩展,限制了用户情感分析的广泛应用。
  2. 本研究提出利用大语言模型自动生成合成数据集,旨在降低数据获取成本,并提高数据集生成效率和灵活性。
  3. 实验结果表明,LLM 生成的数据集在情感一致性方面表现良好,且具有一定的文本多样性,为低成本情感分析提供了可能。

📝 摘要(中文)

本研究探索了使用大型语言模型(LLM)生成合成数据集,用于产品吸引力工具包(PDT)测试,这是评估用户情感和产品体验的关键组成部分。研究使用 gpt-4o-mini,一种比大型商业 LLM 更具成本效益的替代方案,采用了三种方法:Word+Review、Review+Word 和 Supply-Word,每种方法都用于合成 1000 条产品评论。评估了生成数据集的情感一致性、文本多样性和数据生成成本。结果表明,所有方法都具有高度的情感一致性,皮尔逊相关系数范围为 0.93 到 0.97。Supply-Word 在 PDT 术语的多样性和覆盖率方面表现最佳,但生成成本有所增加。尽管存在对积极情感的轻微偏差,但在测试数据有限的情况下,LLM 生成的合成数据提供了显著的优势,包括可扩展性、成本节约和数据集生产的灵活性。

🔬 方法详解

问题定义:本研究旨在解决产品吸引力工具包(PDT)测试中数据获取成本高昂且难以扩展的问题。传统方法依赖于人工标注或收集真实用户评论,耗时费力,且难以覆盖所有可能的场景和用户情感。现有方法的痛点在于数据获取的成本和效率,以及数据集的多样性和覆盖性。

核心思路:本研究的核心思路是利用大型语言模型(LLM)的强大生成能力,自动合成高质量的产品评论数据集。通过控制 LLM 的输入和生成过程,可以生成具有特定情感倾向和主题的数据,从而降低数据获取成本,并提高数据集的灵活性和可控性。

技术框架:本研究采用了三种不同的方法来生成合成数据集:Word+Review、Review+Word 和 Supply-Word。这三种方法都使用 gpt-4o-mini 模型。Word+Review 方法首先提供一个关键词,然后要求 LLM 生成包含该关键词的产品评论。Review+Word 方法首先提供一个产品评论,然后要求 LLM 在评论中加入指定的关键词。Supply-Word 方法提供产品信息和关键词,要求 LLM 生成评论。

关键创新:本研究的关键创新在于探索了利用低成本 LLM (gpt-4o-mini) 生成 PDT 测试数据集的可行性。与直接使用大型商业 LLM 相比,gpt-4o-mini 在保证生成质量的同时,显著降低了数据生成成本。此外,研究还比较了三种不同的生成方法,并分析了它们在情感一致性、文本多样性和数据生成成本方面的差异。

关键设计:研究中使用了 gpt-4o-mini 模型,并针对三种不同的生成方法设计了特定的提示词(prompts)。通过调整提示词的内容和结构,可以控制 LLM 生成的数据的情感倾向和主题。研究还使用了皮尔逊相关系数来评估生成数据集的情感一致性,并使用词汇多样性指标来评估文本多样性。数据生成成本通过API调用次数和token数量进行衡量。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,三种方法生成的数据集都具有较高的情感一致性,皮尔逊相关系数范围为 0.93 到 0.97。Supply-Word 方法在 PDT 术语的多样性和覆盖率方面表现最佳,但生成成本略有增加。研究表明,即使使用低成本的 LLM,也能生成高质量的合成数据,为低成本情感分析提供了可能。

🎯 应用场景

该研究成果可应用于产品设计、市场营销和用户体验研究等领域。通过低成本地生成大量合成数据,可以更全面地评估用户对产品的喜好和情感,从而指导产品改进和营销策略制定。未来,该方法还可以扩展到其他领域,例如情感分析、舆情监控和对话系统等。

📄 摘要(原文)

This research explores the application of large language models (LLMs) to generate synthetic datasets for Product Desirability Toolkit (PDT) testing, a key component in evaluating user sentiment and product experience. Utilizing gpt-4o-mini, a cost-effective alternative to larger commercial LLMs, three methods, Word+Review, Review+Word, and Supply-Word, were each used to synthesize 1000 product reviews. The generated datasets were assessed for sentiment alignment, textual diversity, and data generation cost. Results demonstrated high sentiment alignment across all methods, with Pearson correlations ranging from 0.93 to 0.97. Supply-Word exhibited the highest diversity and coverage of PDT terms, although with increased generation costs. Despite minor biases toward positive sentiments, in situations with limited test data, LLM-generated synthetic data offers significant advantages, including scalability, cost savings, and flexibility in dataset production.