StreamProfileBench: A Benchmark for Fine-Grained User Profile Inference in Real-World Streaming Scenarios

作者: Sizhe Wang, Feiyu Duan, Juelin Wang, Liwen Zhang, Feiyu Duan

分类: cs.CL

发布日期: 2026-05-25

💡 一句话要点

StreamProfileBench：提出大规模流式用户画像基准，解决实时场景下用户兴趣演变建模难题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 流式用户画像 用户兴趣演变 大规模基准 连续状态维护 无标注评估

📋 核心要点

现有用户画像评估主要基于静态数据，无法反映真实场景下用户兴趣的动态演变。
论文提出StreamProfileBench基准，将流式用户画像建模为连续状态维护任务，并设计了无标注评估框架。
实验表明，现有LLM在连续用户画像更新方面存在保守偏见，未能有效识别用户兴趣的衰减。

📝 摘要（中文）

大型语言模型（LLMs）已经重塑了用户画像构建，但目前的评估主要集中在静态数据快照上。这种模式忽略了个性化系统的现实情况，即用户生成内容（UGC）是持续到达的，细粒度的画像会迅速演变。为了弥合这一差距，我们推出了StreamProfileBench，这是一个用于细粒度流式用户画像的大规模基准。我们将流式用户画像形式化为一个连续状态维护任务，并策划了一个高度真实的数据集，其中包含来自五个不同平台的7000多名真实用户的超过12万个UGC帖子。通过利用用户兴趣的时间相关性，我们进一步提出了一个新颖的、无需标注的评估框架。对14个领先LLM的广泛实验表明，连续的画像更新仍然是一个开放的挑战。模型表现出系统性的保守偏见，过度保留过去的兴趣，而未能识别出兴趣衰减。消融实验进一步验证了流式范式的实际效用和必要性。

🔬 方法详解

问题定义：现有用户画像研究主要基于静态数据，忽略了用户兴趣随时间动态变化的特性。在真实的流式场景中，用户生成内容（UGC）不断涌现，用户画像需要实时更新以反映用户兴趣的演变。现有方法难以捕捉这种细粒度的兴趣变化，导致画像的准确性和时效性不足。

核心思路：论文的核心思路是将流式用户画像建模为一个连续状态维护任务。模型需要根据不断到来的UGC帖子，动态更新用户画像，捕捉用户兴趣的演变过程。通过利用用户兴趣的时间相关性，设计无需人工标注的评估框架，降低了评估成本。

技术框架：StreamProfileBench包含以下主要组成部分：1) 大规模的流式UGC数据集，包含来自多个平台的真实用户数据；2) 将流式用户画像形式化为连续状态维护任务；3) 基于用户兴趣时间相关性的无标注评估框架。模型接收连续的UGC帖子流，并输出更新后的用户画像。评估框架根据用户后续的UGC帖子，判断模型是否准确捕捉了用户兴趣的演变。

关键创新：论文的关键创新在于：1) 提出了一个大规模的流式用户画像基准，填补了现有研究的空白；2) 将流式用户画像建模为连续状态维护任务，更贴近真实应用场景；3) 设计了无需人工标注的评估框架，降低了评估成本，并能够有效评估模型捕捉用户兴趣演变的能力。

关键设计：数据集包含来自五个不同平台的7000多名真实用户的超过12万个UGC帖子。评估框架利用用户兴趣的时间相关性，例如，如果用户在一段时间内持续发布关于某个主题的帖子，则认为用户对该主题的兴趣较高。模型需要根据UGC帖子，预测用户在未来一段时间内可能感兴趣的主题。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有LLM在StreamProfileBench上表现出保守偏见，过度保留过去的兴趣，而未能有效识别兴趣衰减。例如，模型在识别用户兴趣变化方面的准确率低于静态数据上的表现。消融实验验证了流式范式的必要性，表明在流式场景下，持续更新用户画像能够显著提升画像的准确性。

🎯 应用场景

该研究成果可应用于个性化推荐系统、广告投放、内容审核等领域。通过构建更准确、实时的用户画像，可以提升推荐系统的效果，提高广告投放的精准度，并有效识别不良内容。未来，该研究可以进一步扩展到其他模态的数据，例如图像、视频等，构建更全面的用户画像。

📄 摘要（原文）

Large Language Models (LLMs) have reshaped user profiling, yet current evaluations mainly focus on static data snapshots. This paradigm overlooks the reality of personalized systems, where User-Generated Content (UGC) arrives continuously and fine-grained profile evolve rapidly. To bridge this gap, we introduce StreamProfileBench, a large-scale benchmark for fine-grained streaming user profiling. We formalize streaming user profiling as a continuous state maintenance task and curate a highly authentic dataset comprising over 120,000 UGC posts from 7,000+ real users across five diverse platforms. By leveraging the temporal correlation of user interests, we further propose a novel, annotation-free evaluation framework. Extensive experiments across 14 leading LLMs reveal that continuous profile updating remains an open challenge. Models exhibit a systemic conservative bias, over-retaining past interests while failing to recognize interest decay. Ablation experiments further validate the practical utility and necessity of the streaming paradigm.

StreamProfileBench: A Benchmark for Fine-Grained User Profile Inference in Real-World Streaming Scenarios

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理