KuaiLive: A Real-time Interactive Dataset for Live Streaming Recommendation

📄 arXiv: 2508.05633v1 📥 PDF

作者: Changle Qu, Sunhao Dai, Ke Guo, Liqin Zhao, Yanan Niu, Xiao Zhang, Jun Xu

分类: cs.IR, cs.AI

发布日期: 2025-08-07

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

发布KuaiLive:一个用于直播推荐的实时交互数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 直播推荐 实时交互数据集 用户行为建模 多行为建模 多任务学习

📋 核心要点

  1. 现有直播推荐研究缺乏真实反映直播环境动态特性的公开数据集,阻碍了学术界的研究进展。
  2. KuaiLive数据集包含精确的时间戳、多种用户互动类型以及丰富的用户和主播侧信息,能够更真实地模拟直播环境。
  3. 论文对KuaiLive进行了全面分析,并评估了多种推荐方法,为直播推荐研究建立了基准。

📝 摘要(中文)

直播平台已成为在线内容消费的主要形式,提供动态演进的内容、实时互动和高度吸引用户的体验。这些独特的特性带来了新的挑战,使得直播推荐区别于传统的推荐设置,并近年来受到工业界越来越多的关注。然而,由于缺乏能够准确反映直播环境动态特性的公开数据集,学术界的研究进展受到了阻碍。为了解决这个问题,我们推出了KuaiLive,这是第一个从快手收集的实时交互数据集,快手是中国领先的直播平台,拥有超过4亿的日活跃用户。该数据集记录了23772名用户和452621名主播在21天内的互动日志。与现有数据集相比,KuaiLive具有多个优势:它包括精确的直播间开始和结束时间戳、多种类型的实时用户互动(点击、评论、点赞、礼物)以及丰富的用户和主播侧信息特征。这些特征能够更真实地模拟动态候选项目,并更好地建模用户和主播的行为。我们从多个角度对KuaiLive进行了全面分析,并评估了几种具有代表性的推荐方法,为未来的研究建立了强大的基准。KuaiLive可以支持直播领域的各种任务,如Top-K推荐、点击率预测、观看时长预测和礼物价格预测。此外,其细粒度的行为数据也支持多行为建模、多任务学习和公平感知推荐的研究。该数据集和相关资源可在https://imgkkk574.github.io/KuaiLive公开获取。

🔬 方法详解

问题定义:论文旨在解决直播推荐领域缺乏高质量、实时交互数据集的问题。现有数据集无法准确反映直播环境的动态性和复杂性,限制了相关算法的开发和评估。现有方法的痛点在于无法有效模拟用户在直播间的实时行为,以及主播和用户之间的互动。

核心思路:论文的核心思路是构建一个大规模、真实的直播互动数据集,包含用户和主播的详细行为日志和侧信息。通过提供精确的时间戳、多种互动类型和丰富的特征,KuaiLive旨在支持更真实地模拟动态候选项目,并更好地建模用户和主播的行为。

技术框架:KuaiLive数据集的构建流程主要包括数据收集、数据清洗、数据标注和数据发布。数据收集阶段从快手平台获取用户和主播的互动日志,包括点击、评论、点赞、礼物等行为。数据清洗阶段处理缺失值、异常值和噪声数据。数据标注阶段添加用户和主播的侧信息特征。最后,数据集以公开可访问的方式发布。

关键创新:KuaiLive的关键创新在于其数据的实时性和交互性。与现有数据集相比,KuaiLive包含精确的直播间开始和结束时间戳,以及多种类型的实时用户互动。此外,KuaiLive还提供了丰富的用户和主播侧信息特征,这使得研究人员能够更全面地了解用户和主播的行为。

关键设计:KuaiLive数据集包含以下关键设计: 1. 时间戳:精确记录直播间开始和结束时间,以及用户互动的时间。 2. 互动类型:包含点击、评论、点赞、礼物等多种用户互动类型。 3. 侧信息特征:提供用户和主播的画像信息,如年龄、性别、地理位置、兴趣标签等。 4. 数据规模:包含23772名用户和452621名主播在21天内的互动日志。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过在KuaiLive数据集上评估几种代表性的推荐方法,建立了强大的基准。实验结果表明,KuaiLive能够有效区分不同推荐算法的性能,并为未来的研究提供参考。具体性能数据未知,但论文强调KuaiLive为未来的研究提供了坚实的基础。

🎯 应用场景

KuaiLive数据集可广泛应用于直播推荐相关的研究和应用,例如Top-K推荐、点击率预测、观看时长预测和礼物价格预测。此外,其细粒度的行为数据也支持多行为建模、多任务学习和公平感知推荐的研究。该数据集能够促进直播推荐算法的创新,提升用户体验,并为直播平台的商业化提供支持。

📄 摘要(原文)

Live streaming platforms have become a dominant form of online content consumption, offering dynamically evolving content, real-time interactions, and highly engaging user experiences. These unique characteristics introduce new challenges that differentiate live streaming recommendation from traditional recommendation settings and have garnered increasing attention from industry in recent years. However, research progress in academia has been hindered by the lack of publicly available datasets that accurately reflect the dynamic nature of live streaming environments. To address this gap, we introduce KuaiLive, the first real-time, interactive dataset collected from Kuaishou, a leading live streaming platform in China with over 400 million daily active users. The dataset records the interaction logs of 23,772 users and 452,621 streamers over a 21-day period. Compared to existing datasets, KuaiLive offers several advantages: it includes precise live room start and end timestamps, multiple types of real-time user interactions (click, comment, like, gift), and rich side information features for both users and streamers. These features enable more realistic simulation of dynamic candidate items and better modeling of user and streamer behaviors. We conduct a thorough analysis of KuaiLive from multiple perspectives and evaluate several representative recommendation methods on it, establishing a strong benchmark for future research. KuaiLive can support a wide range of tasks in the live streaming domain, such as top-K recommendation, click-through rate prediction, watch time prediction, and gift price prediction. Moreover, its fine-grained behavioral data also enables research on multi-behavior modeling, multi-task learning, and fairness-aware recommendation. The dataset and related resources are publicly available at https://imgkkk574.github.io/KuaiLive.