SimUSER: Simulating User Behavior with Large Language Models for Recommender System Evaluation

📄 arXiv: 2504.12722v1 📥 PDF

作者: Nicolas Bougie, Narimasa Watanabe

分类: cs.IR, cs.AI

发布日期: 2025-04-17


💡 一句话要点

SimUSER:利用大语言模型模拟用户行为,用于推荐系统评估

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推荐系统评估 用户行为模拟 大语言模型 用户代理 A/B测试

📋 核心要点

  1. 现有推荐系统评估方法依赖离线指标,与真实用户行为存在差距,难以准确反映系统性能。
  2. SimUSER框架通过大语言模型构建用户代理,模拟用户的角色、记忆、感知和决策过程,更贴近真实用户。
  3. 实验表明SimUSER在微观和宏观层面都更接近真实用户,并可用于分析推荐策略对用户行为的影响。

📝 摘要(中文)

推荐系统在众多实际应用中扮演着核心角色,但由于离线指标与在线行为之间存在差距,评估其性能仍然是一个重大挑战。鉴于真实用户数据的稀缺性和限制(例如,隐私问题),我们引入了SimUSER,一个代理框架,可以作为可信且经济高效的人类代理。SimUSER首先从历史数据中识别出自洽的角色,用独特的背景和个性丰富用户画像。然后,该评估的核心是配备了角色、记忆、感知和大脑模块的用户,他们与推荐系统进行交互。SimUSER在微观和宏观层面都比之前的工作更贴近真实人类。此外,我们进行了有见地的实验,以探索缩略图对点击率的影响、曝光效应以及评论对用户参与度的影响。最后,我们根据离线A/B测试结果改进了推荐系统参数,从而提高了现实世界中的用户参与度。

🔬 方法详解

问题定义:推荐系统评估依赖真实用户数据,但数据获取成本高昂且存在隐私问题。离线评估指标与在线用户行为存在偏差,难以准确评估推荐系统的真实效果。现有用户模拟方法在模拟用户行为的真实性和复杂性方面存在不足。

核心思路:利用大型语言模型(LLM)的强大能力,构建更真实、更可信的用户代理。通过赋予用户代理角色、记忆、感知和大脑等模块,模拟用户的认知过程和行为模式,使其能够像真实用户一样与推荐系统进行交互。

技术框架:SimUSER框架包含以下主要模块:1) 角色识别模块:从历史数据中提取用户画像,赋予用户代理独特的背景和个性。2) 记忆模块:记录用户代理的历史行为和偏好,使其能够记住之前的交互。3) 感知模块:模拟用户对推荐内容的感知,例如缩略图、标题和评论等。4) 大脑模块:利用LLM模拟用户的决策过程,根据角色、记忆和感知做出选择。

关键创新:SimUSER的关键创新在于利用LLM构建了更真实、更可信的用户代理。与现有方法相比,SimUSER能够更好地模拟用户的认知过程和行为模式,从而更准确地评估推荐系统的性能。此外,SimUSER还能够用于分析推荐策略对用户行为的影响,例如缩略图对点击率的影响、曝光效应以及评论对用户参与度的影响。

关键设计:SimUSER使用LLM作为大脑模块的核心,通过prompt engineering来控制用户代理的行为。用户代理的角色、记忆和感知信息被编码为LLM的输入,LLM的输出则被解码为用户代理的行动。论文还设计了一系列实验来评估SimUSER的性能,并分析了不同推荐策略对用户行为的影响。具体参数设置和损失函数等技术细节在论文中进行了详细描述,但未在此处详细展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SimUSER在微观和宏观层面都比之前的工作更贴近真实人类。实验结果表明,SimUSER能够更准确地预测用户的点击行为,并能够更好地模拟用户的长期行为模式。通过SimUSER进行的A/B测试结果与真实在线A/B测试结果更加一致,表明SimUSER可以作为真实用户的有效替代品。

🎯 应用场景

SimUSER可用于推荐系统的离线评估、A/B测试和策略优化。它可以帮助研究人员和工程师在没有真实用户数据的情况下评估推荐系统的性能,并分析不同推荐策略对用户行为的影响。此外,SimUSER还可以用于个性化推荐、用户行为预测和用户画像构建等领域,具有广泛的应用前景。

📄 摘要(原文)

Recommender systems play a central role in numerous real-life applications, yet evaluating their performance remains a significant challenge due to the gap between offline metrics and online behaviors. Given the scarcity and limits (e.g., privacy issues) of real user data, we introduce SimUSER, an agent framework that serves as believable and cost-effective human proxies. SimUSER first identifies self-consistent personas from historical data, enriching user profiles with unique backgrounds and personalities. Then, central to this evaluation are users equipped with persona, memory, perception, and brain modules, engaging in interactions with the recommender system. SimUSER exhibits closer alignment with genuine humans than prior work, both at micro and macro levels. Additionally, we conduct insightful experiments to explore the effects of thumbnails on click rates, the exposure effect, and the impact of reviews on user engagement. Finally, we refine recommender system parameters based on offline A/B test results, resulting in improved user engagement in the real world.