StreamProfileBench: A Benchmark for Fine-Grained User Profile Inference in Real-World Streaming Scenarios
作者: Sizhe Wang, Feiyu Duan, Juelin Wang, Liwen Zhang, Feiyu Duan
分类: cs.CL
发布日期: 2026-05-25
💡 一句话要点
StreamProfileBench:提出大规模流式用户画像基准,解决实时场景下用户兴趣演变建模难题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 流式用户画像 用户兴趣演变 大规模基准 连续状态维护 无标注评估
📋 核心要点
- 现有用户画像评估主要基于静态数据,无法反映真实场景下用户兴趣的动态演变。
- 论文提出StreamProfileBench基准,将流式用户画像建模为连续状态维护任务,并设计了无标注评估框架。
- 实验表明,现有LLM在连续用户画像更新方面存在保守偏见,未能有效识别用户兴趣的衰减。
📝 摘要(中文)
大型语言模型(LLMs)已经重塑了用户画像构建,但目前的评估主要集中在静态数据快照上。这种模式忽略了个性化系统的现实情况,即用户生成内容(UGC)是持续到达的,细粒度的画像会迅速演变。为了弥合这一差距,我们推出了StreamProfileBench,这是一个用于细粒度流式用户画像的大规模基准。我们将流式用户画像形式化为一个连续状态维护任务,并策划了一个高度真实的数据集,其中包含来自五个不同平台的7000多名真实用户的超过12万个UGC帖子。通过利用用户兴趣的时间相关性,我们进一步提出了一个新颖的、无需标注的评估框架。对14个领先LLM的广泛实验表明,连续的画像更新仍然是一个开放的挑战。模型表现出系统性的保守偏见,过度保留过去的兴趣,而未能识别出兴趣衰减。消融实验进一步验证了流式范式的实际效用和必要性。
🔬 方法详解
问题定义:现有用户画像研究主要基于静态数据,忽略了用户兴趣随时间动态变化的特性。在真实的流式场景中,用户生成内容(UGC)不断涌现,用户画像需要实时更新以反映用户兴趣的演变。现有方法难以捕捉这种细粒度的兴趣变化,导致画像的准确性和时效性不足。
核心思路:论文的核心思路是将流式用户画像建模为一个连续状态维护任务。模型需要根据不断到来的UGC帖子,动态更新用户画像,捕捉用户兴趣的演变过程。通过利用用户兴趣的时间相关性,设计无需人工标注的评估框架,降低了评估成本。
技术框架:StreamProfileBench包含以下主要组成部分:1) 大规模的流式UGC数据集,包含来自多个平台的真实用户数据;2) 将流式用户画像形式化为连续状态维护任务;3) 基于用户兴趣时间相关性的无标注评估框架。模型接收连续的UGC帖子流,并输出更新后的用户画像。评估框架根据用户后续的UGC帖子,判断模型是否准确捕捉了用户兴趣的演变。
关键创新:论文的关键创新在于:1) 提出了一个大规模的流式用户画像基准,填补了现有研究的空白;2) 将流式用户画像建模为连续状态维护任务,更贴近真实应用场景;3) 设计了无需人工标注的评估框架,降低了评估成本,并能够有效评估模型捕捉用户兴趣演变的能力。
关键设计:数据集包含来自五个不同平台的7000多名真实用户的超过12万个UGC帖子。评估框架利用用户兴趣的时间相关性,例如,如果用户在一段时间内持续发布关于某个主题的帖子,则认为用户对该主题的兴趣较高。模型需要根据UGC帖子,预测用户在未来一段时间内可能感兴趣的主题。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM在StreamProfileBench上表现出保守偏见,过度保留过去的兴趣,而未能有效识别兴趣衰减。例如,模型在识别用户兴趣变化方面的准确率低于静态数据上的表现。消融实验验证了流式范式的必要性,表明在流式场景下,持续更新用户画像能够显著提升画像的准确性。
🎯 应用场景
该研究成果可应用于个性化推荐系统、广告投放、内容审核等领域。通过构建更准确、实时的用户画像,可以提升推荐系统的效果,提高广告投放的精准度,并有效识别不良内容。未来,该研究可以进一步扩展到其他模态的数据,例如图像、视频等,构建更全面的用户画像。
📄 摘要(原文)
Large Language Models (LLMs) have reshaped user profiling, yet current evaluations mainly focus on static data snapshots. This paradigm overlooks the reality of personalized systems, where User-Generated Content (UGC) arrives continuously and fine-grained profile evolve rapidly. To bridge this gap, we introduce StreamProfileBench, a large-scale benchmark for fine-grained streaming user profiling. We formalize streaming user profiling as a continuous state maintenance task and curate a highly authentic dataset comprising over 120,000 UGC posts from 7,000+ real users across five diverse platforms. By leveraging the temporal correlation of user interests, we further propose a novel, annotation-free evaluation framework. Extensive experiments across 14 leading LLMs reveal that continuous profile updating remains an open challenge. Models exhibit a systemic conservative bias, over-retaining past interests while failing to recognize interest decay. Ablation experiments further validate the practical utility and necessity of the streaming paradigm.