VerbalValue: A Socially Intelligent Virtual Host for Sales-Driven Live Commerce

📄 arXiv: 2605.14542v1 📥 PDF

作者: Yuyan Chen

分类: cs.AI

发布日期: 2026-05-14

备注: Accepted to the CVPR 2026 HiGen Workshop


💡 一句话要点

VerbalValue:面向销售的直播电商社交智能虚拟主持人

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 直播电商 虚拟主持人 大型语言模型 领域知识库 销售转化

📋 核心要点

  1. 现有AI系统在直播电商场景中,无法有效模拟优秀主持人,缺乏产品专业知识和销售技巧。
  2. VerbalValue构建领域知识库和销售术语词典,并微调LLM,以提供更具同理心和商业导向的回应。
  3. 实验表明,VerbalValue在信息量、事实正确性、策略性和观众参与度方面均优于现有模型。

📝 摘要(中文)

优秀的直播电商主持人不仅仅是叙述者,更是销售代理,他们通过专业的产品知识、情商高的回应策略以及作为产品展示媒介的娱乐性,将观众的好奇心转化为购买意愿。然而,目前尚无AI系统能够复制这一点:对话式推荐系统将推荐视为终结行为,而通用LLM则会虚构产品声明,并默认使用无法吸引或说服观众的通用促销模板。我们提出了VerbalValue,一个面向销售转化的虚拟主持人,它将卓越的语言能力转化为实际商业价值,建立在三个贡献之上。首先,我们构建了一个产品规格的领域知识库和一个精选的销售术语词典,将与产品相关的回应锚定在经过验证的专业知识中。其次,我们收集并标注了1475个涵盖不同观众意图的直播电商互动。第三,我们在此数据上微调了一个大型语言模型,以提供富有同情心、以商业为导向的回应,通过同情放大、基于证据的反驳和幽默介导的转移来适应观众的意图。与GPT-5.4、Claude Sonnet 4.6、Gemini 3.1 Pro和其他基线的实验表明,信息量提高了23%,事实正确性提高了18%,并且在策略性和观众参与度方面具有一致的优势。

🔬 方法详解

问题定义:现有直播电商AI系统无法有效模拟优秀主持人的销售能力。对话式推荐系统侧重于推荐本身,而通用LLM容易产生虚假信息,且缺乏针对性的销售策略,难以有效转化观众的购买意愿。

核心思路:VerbalValue的核心思路是构建一个专门面向销售转化的虚拟主持人,通过领域知识库、销售术语词典和微调的LLM,使其具备专业的产品知识、情商和销售技巧,从而更好地引导观众完成购买。

技术框架:VerbalValue的技术框架主要包含三个部分:1) 领域知识库和销售术语词典:用于存储和管理产品规格和销售术语,确保回应的准确性和专业性。2) 数据收集和标注:收集并标注大量的直播电商互动数据,用于训练LLM。3) LLM微调:在收集的数据上微调LLM,使其能够生成富有同情心、以商业为导向的回应。

关键创新:VerbalValue的关键创新在于其面向销售转化的设计理念,以及将领域知识库、销售术语词典和LLM微调相结合的方法。与现有方法相比,VerbalValue更注重提升虚拟主持人的销售能力,而非仅仅提供信息或推荐。

关键设计:论文的关键设计包括:1) 领域知识库的构建方法,如何有效地收集和组织产品规格信息。2) 销售术语词典的构建方法,如何选择和定义与销售相关的术语。3) LLM微调策略,如何设计损失函数和训练目标,以提升模型的销售能力。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,VerbalValue在信息量方面比GPT-5.4、Claude Sonnet 4.6和Gemini 3.1 Pro等基线模型提高了23%,在事实正确性方面提高了18%。此外,VerbalValue在策略性和观众参与度方面也表现出一致的优势,证明了其在直播电商场景中的有效性。

🎯 应用场景

VerbalValue可应用于各种直播电商平台,作为虚拟主持人与观众互动,提升产品销量。它还可以用于培训新的直播电商主持人,提供个性化的销售指导。此外,该技术还可以扩展到其他销售场景,例如在线客服和电话销售。

📄 摘要(原文)

A skilled live-commerce host is not merely a narrator, but a sales agent who converts viewer curiosity into purchase intent through expert product knowledge, emotionally intelligent response tactics, and entertainment that serves as a vehicle for product exposure. Yet no existing AI system replicates this: conversational recommenders treat recommendation as a terminal act, while general-purpose LLMs hallucinate product claims and default to generic promotional templates that fail to engage or persuade. We present VerbalValue, a sales-conversion-oriented virtual host that turns exceptional verbal ability into real commercial value, built on three contributions. First, we construct a domain knowledge base of product specifications and a curated sales terminology lexicon that anchor product-related responses in verified expertise. Second, we collect and annotate 1,475 live-commerce interactions spanning diverse viewer intents. Third, we fine-tune a large language model on this data to deliver empathetic, commercially oriented responses, adapting to viewer intent through empathetic amplification, evidence-backed rebuttal, and humor-mediated deflection. Experiments against GPT-5.4, Claude Sonnet 4.6, Gemini 3.1 Pro, and other baselines demonstrate gains of 23% on informativeness and 18% on factual correctness, with consistent advantages in tactfulness and viewer engagement.