GISTBench: Evaluating LLM User Understanding via Evidence-Based Interest Verification
作者: Iordanis Fostiropoulos, Muhammad Rafay Azhar, Abdalaziz Sawwan, Boyu Fang, Yuchen Liu, Jiayi Liu, Hanchao Yu, Qi Guo, Jianyu Wang, Fei Liu, Xiangjun Fan
分类: cs.AI, cs.CL
发布日期: 2026-03-31
备注: 9 figures, 20 tables; code at https://github.com/facebookresearch/GISTBench
💡 一句话要点
GISTBench:提出基于证据的用户兴趣验证基准,评估LLM在推荐系统中的用户理解能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 用户理解 大型语言模型 推荐系统 评估基准 兴趣验证
📋 核心要点
- 现有推荐系统基准侧重于物品预测,忽略了对LLM用户理解能力的直接评估,无法有效衡量LLM对用户兴趣的建模能力。
- GISTBench通过评估LLM从用户互动历史中提取和验证用户兴趣的能力,弥补了现有基准的不足,更关注用户理解。
- 实验结果表明,现有LLM在准确计数和归因跨异构互动类型的用户互动信号方面存在性能瓶颈,有待进一步提升。
📝 摘要(中文)
本文提出了GISTBench,一个用于评估大型语言模型(LLM)在推荐系统中,从用户交互历史中理解用户能力的新基准。与侧重于物品预测准确性的传统推荐系统基准不同,GISTBench评估LLM从用户互动数据中提取和验证用户兴趣的能力。论文提出了两个新的指标族:兴趣基础性(IG),分解为精确率和召回率,分别惩罚幻觉兴趣类别和奖励覆盖率;以及兴趣特异性(IS),评估验证后的LLM预测用户画像的独特性。论文发布了一个基于全球短视频平台真实用户互动构建的合成数据集,包含隐式和显式互动信号以及丰富的文本描述。通过用户调查验证了数据集的保真度,并评估了参数规模从7B到120B的八个开源LLM。研究结果揭示了当前LLM的性能瓶颈,特别是它们在跨异构互动类型中准确计数和归因互动信号方面的能力有限。
🔬 方法详解
问题定义:论文旨在解决如何有效评估大型语言模型(LLM)在推荐系统中理解用户兴趣的能力。现有推荐系统基准主要关注物品预测的准确性,缺乏对LLM用户理解能力的直接评估,无法衡量LLM是否真正理解用户的兴趣偏好。这使得我们难以判断LLM推荐结果的合理性和可解释性。
核心思路:论文的核心思路是通过构建一个基于证据的用户兴趣验证基准,即GISTBench,来评估LLM从用户互动历史中提取和验证用户兴趣的能力。该基准侧重于评估LLM是否能够准确地从用户的行为数据中推断出用户的兴趣,并验证这些兴趣的真实性和特异性。
技术框架:GISTBench包含一个合成数据集和两类评估指标。数据集基于真实短视频平台的用户互动数据构建,包含隐式和显式互动信号以及丰富的文本描述。评估指标包括:1) 兴趣基础性(Interest Groundedness, IG),用于评估LLM预测的兴趣是否与用户互动历史相符,分为精确率和召回率两个部分;2) 兴趣特异性(Interest Specificity, IS),用于评估LLM预测的用户画像的独特性,即不同用户之间的兴趣画像是否具有区分度。
关键创新:GISTBench的关键创新在于其评估LLM用户理解能力的方式。与传统的物品预测基准不同,GISTBench直接评估LLM从用户互动历史中提取和验证用户兴趣的能力。此外,提出的兴趣基础性(IG)和兴趣特异性(IS)指标能够更全面地评估LLM对用户兴趣的理解程度。
关键设计:数据集构建的关键在于模拟真实的用户互动行为,并提供丰富的文本描述,以便LLM能够更好地理解用户的兴趣。兴趣基础性(IG)指标通过计算LLM预测的兴趣与用户互动历史之间的重叠程度来评估LLM的准确性。兴趣特异性(IS)指标通过计算不同用户之间的兴趣画像的相似度来评估LLM区分不同用户兴趣的能力。具体参数设置和损失函数在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,现有LLM在GISTBench上的表现仍有提升空间,尤其是在准确计数和归因跨异构互动类型的用户互动信号方面存在瓶颈。例如,论文发现LLM在处理不同类型的用户互动(如点赞、评论、分享)时,难以准确地判断哪些互动信号更重要,从而影响了对用户兴趣的准确理解。具体性能数据和提升幅度在论文中未详细说明,属于未知信息。
🎯 应用场景
GISTBench可用于评估和比较不同LLM在推荐系统中的用户理解能力,指导LLM的优化和改进。此外,该基准还可以应用于其他需要理解用户兴趣的场景,例如个性化搜索、内容推荐和用户画像构建等,有助于提升用户体验和推荐效果。
📄 摘要(原文)
We introduce GISTBench, a benchmark for evaluating Large Language Models' (LLMs) ability to understand users from their interaction histories in recommendation systems. Unlike traditional RecSys benchmarks that focus on item prediction accuracy, our benchmark evaluates how well LLMs can extract and verify user interests from engagement data. We propose two novel metric families: Interest Groundedness (IG), decomposed into precision and recall components to separately penalize hallucinated interest categories and reward coverage, and Interest Specificity (IS), which assesses the distinctiveness of verified LLM-predicted user profiles. We release a synthetic dataset constructed on real user interactions on a global short-form video platform. Our dataset contains both implicit and explicit engagement signals and rich textual descriptions. We validate our dataset fidelity against user surveys, and evaluate eight open-weight LLMs spanning 7B to 120B parameters. Our findings reveal performance bottlenecks in current LLMs, particularly their limited ability to accurately count and attribute engagement signals across heterogeneous interaction types.