EventChat: Implementation and user-centric evaluation of a large language model-driven conversational recommender system for exploring leisure events in an SME context
作者: Hannes Kunstmann, Joseph Ollier, Joel Persson, Florian von Wangenheim
分类: cs.IR, cs.AI, cs.CL, cs.LG
发布日期: 2024-07-05 (更新: 2024-07-09)
备注: 27 pages, 3 tables, 5 figures, pre-print manuscript, updated version of manuscript due to typo (previous version, Figure 5 was incorrectly named Figure 6)
💡 一句话要点
EventChat:面向中小企业,基于大语言模型的休闲活动对话推荐系统及其用户评估
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对话推荐系统 大语言模型 中小企业 用户评估 检索增强生成 成本效益 延迟优化
📋 核心要点
- 现有对话推荐系统(CRS)研究侧重技术框架,缺乏对中小企业(SME)用户评估和战略影响的分析。
- 设计并实现了一个基于大语言模型(LLM)的CRS,应用于中小企业休闲活动推荐场景,并进行用户体验评估。
- 实验结果表明系统推荐准确率较高(85.5%),但延迟和成本是关键挑战,提示需关注成本效益和响应时间。
📝 摘要(中文)
大型语言模型(LLMs)为对话推荐系统(CRS)的战略潜力带来了巨大的发展。然而,目前的研究主要集中于实现LLM驱动的CRS的技术框架,而不是最终用户评估或对公司的战略影响,特别是从构成全球经济基石的中小型企业(SME)的角度来看。在本文中,我们详细介绍了在中小企业环境中LLM驱动的CRS的设计,以及它在实际应用中的性能,包括客观系统指标和主观用户评估。同时,我们还概述了一个简短的修订版ResQue模型,用于评估LLM驱动的CRS,从而能够在快速发展的领域中实现可复制性。我们的结果显示,从用户体验的角度来看,系统性能良好(85.5%的推荐准确率),但同时也强调了延迟、成本和质量问题,这些问题对业务可行性提出了挑战。值得注意的是,每次交互的平均成本为0.04美元,延迟为5.7秒,成本效益和响应时间成为为中小企业环境实现更用户友好和经济可行的LLM驱动的CRS的关键领域。这些成本的一个主要驱动因素是使用高级LLM作为检索增强生成(RAG)技术中的排序器。我们的结果还表明,仅仅依赖于诸如基于Prompt的学习与ChatGPT作为底层LLM的方法,很难在生产环境中实现令人满意的质量。概述了中小企业部署LLM驱动的CRS的战略考虑,特别是考虑到当前技术环境中的权衡。
🔬 方法详解
问题定义:论文旨在解决中小企业在休闲活动推荐中,如何利用大语言模型构建高效、经济的对话推荐系统的问题。现有方法主要集中在技术框架的实现,缺乏对用户体验和成本效益的考量,难以直接应用于资源有限的中小企业。
核心思路:论文的核心思路是设计一个基于检索增强生成(RAG)的LLM驱动的CRS,并针对中小企业的特点,重点关注用户体验、成本和延迟。通过用户评估和系统指标,识别关键瓶颈,并提出相应的优化策略。
技术框架:该CRS采用检索增强生成(RAG)框架,包含以下主要模块:1) 用户输入处理:接收用户对话输入,提取用户意图和偏好。2) 信息检索:从活动数据库中检索相关活动信息。3) LLM排序:使用LLM对检索到的活动进行排序,选择最符合用户偏好的活动。4) 响应生成:使用LLM生成自然语言回复,向用户推荐活动。5) 用户交互:与用户进行多轮对话,不断优化推荐结果。
关键创新:论文的关键创新在于:1) 将LLM驱动的CRS应用于中小企业休闲活动推荐场景,并进行了用户评估。2) 提出了一个简短的修订版ResQue模型,用于评估LLM驱动的CRS。3) 强调了成本和延迟是中小企业部署LLM驱动的CRS的关键挑战,并提出了相应的优化方向。
关键设计:论文的关键设计包括:1) 使用高级LLM作为RAG框架中的排序器,以提高推荐准确率。2) 针对中小企业的特点,设计了简洁的用户界面和交互流程。3) 采用Prompt-based learning方法,利用ChatGPT作为底层LLM,进行对话生成和意图理解。4) 通过实验评估了不同LLM和Prompt策略对系统性能的影响。
📊 实验亮点
实验结果表明,该系统在用户体验方面表现良好,推荐准确率达到85.5%。然而,系统延迟较高(5.7秒),每次交互的平均成本为0.04美元。这些数据表明,成本效益和响应时间是中小企业部署LLM驱动的CRS的关键挑战。研究还发现,仅仅依赖Prompt-based learning和ChatGPT难以在生产环境中达到令人满意的质量。
🎯 应用场景
该研究成果可应用于各种中小企业场景,例如旅游推荐、餐饮推荐、本地服务推荐等。通过构建低成本、高效率的对话推荐系统,帮助中小企业提升用户体验,增加销售额,并更好地服务本地社区。未来,该技术有望与虚拟助手、智能客服等应用相结合,进一步拓展应用范围。
📄 摘要(原文)
Large language models (LLMs) present an enormous evolution in the strategic potential of conversational recommender systems (CRS). Yet to date, research has predominantly focused upon technical frameworks to implement LLM-driven CRS, rather than end-user evaluations or strategic implications for firms, particularly from the perspective of a small to medium enterprises (SME) that makeup the bedrock of the global economy. In the current paper, we detail the design of an LLM-driven CRS in an SME setting, and its subsequent performance in the field using both objective system metrics and subjective user evaluations. While doing so, we additionally outline a short-form revised ResQue model for evaluating LLM-driven CRS, enabling replicability in a rapidly evolving field. Our results reveal good system performance from a user experience perspective (85.5% recommendation accuracy) but underscore latency, cost, and quality issues challenging business viability. Notably, with a median cost of $0.04 per interaction and a latency of 5.7s, cost-effectiveness and response time emerge as crucial areas for achieving a more user-friendly and economically viable LLM-driven CRS for SME settings. One major driver of these costs is the use of an advanced LLM as a ranker within the retrieval-augmented generation (RAG) technique. Our results additionally indicate that relying solely on approaches such as Prompt-based learning with ChatGPT as the underlying LLM makes it challenging to achieve satisfying quality in a production environment. Strategic considerations for SMEs deploying an LLM-driven CRS are outlined, particularly considering trade-offs in the current technical landscape.