OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

作者: Ziyi Wang, Yuxuan Lu, Wenbo Li, Amirali Amini, Bo Sun, Yakov Bart, Weimin Lyu, Jiri Gesi, Tian Wang, Jing Huang, Yu Su, Upol Ehsan, Malihe Alikhani, Toby Jia-Jun Li, Lydia Chilton, Dakuo Wang

分类: cs.CL, cs.HC

发布日期: 2025-06-05 (更新: 2025-07-24)

💡 一句话要点

提出OPeRA数据集以解决LLMs模拟用户在线购物行为的挑战

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 用户行为模拟 在线购物 数据集构建 个性化推荐 人机交互

📋 核心要点

现有方法在模拟用户在线购物行为时缺乏高质量的数据集，难以评估LLMs的真实表现。
本文提出OPeRA数据集，全面捕捉用户的角色、行为观察和推理过程，提供高保真度的数据收集工具。
通过OPeRA，建立了评估LLMs预测用户行为的基准，为个性化数字双胞胎的研究奠定基础。

📝 摘要（中文）

大型语言模型（LLMs）能否准确模拟特定用户的下一步网络行为？尽管LLMs在生成“可信”的人类行为方面表现出色，但评估其模仿真实用户行为的能力仍然是一个开放性挑战，主要是由于缺乏高质量、公开可用的数据集来捕捉用户的可观察行为和内部推理。为了解决这一问题，本文提出了OPeRA，一个从真实人类参与者的在线购物会话中收集的观察、角色、推理和行动的新数据集。OPeRA是第一个全面捕捉用户角色、浏览观察、细粒度网络行为和即时自我报告推理的公共数据集。通过OPeRA，我们建立了第一个基准，以评估当前LLMs在给定角色和<观察、行动、推理>历史的情况下，预测特定用户下一步行动和推理的能力。

🔬 方法详解

问题定义：本文旨在解决大型语言模型在模拟用户在线购物行为时的评估难题。现有方法缺乏能够捕捉用户行为和内在推理的高质量数据集，导致评估结果不准确。

核心思路：论文提出了OPeRA数据集，旨在通过真实用户的在线购物会话，收集用户的角色、行为观察、推理和行动数据，以提高LLMs在模拟用户行为方面的准确性。

技术框架：OPeRA数据集的构建包括两个主要模块：在线问卷和自定义浏览器插件。在线问卷用于收集用户角色信息，而浏览器插件则实时记录用户的行为和推理。

关键创新：OPeRA是第一个全面捕捉用户行为和推理的公共数据集，填补了现有数据集在这一领域的空白，使得LLMs的评估更加真实和可靠。

关键设计：数据收集过程中，采用了高保真度的问卷设计和浏览器插件，确保了数据的准确性和丰富性。数据集包含用户的角色信息、浏览行为和即时推理，提供了丰富的上下文信息。

📊 实验亮点

通过使用OPeRA数据集，研究者首次建立了评估LLMs预测用户行为的基准，结果表明，当前的LLMs在预测特定用户的下一步行动和推理方面具有一定的能力，但仍有提升空间。具体性能数据和对比基线尚未披露，未来研究将进一步探索这些模型的改进方向。

🎯 应用场景

OPeRA数据集的潜在应用领域包括个性化推荐系统、智能客服和虚拟购物助手等。通过更准确地模拟用户行为，LLMs可以在这些应用中提供更具个性化的服务，提升用户体验。未来，该数据集还可能推动个性化数字双胞胎的研究，促进人机交互的进一步发展。

📄 摘要（原文）

Can large language models (LLMs) accurately simulate the next web action of a specific user? While LLMs have shown promising capabilities in generating ``believable'' human behaviors, evaluating their ability to mimic real user behaviors remains an open challenge, largely due to the lack of high-quality, publicly available datasets that capture both the observable actions and the internal reasoning of an actual human user. To address this gap, we introduce OPERA, a novel dataset of Observation, Persona, Rationale, and Action collected from real human participants during online shopping sessions. OPERA is the first public dataset that comprehensively captures: user personas, browser observations, fine-grained web actions, and self-reported just-in-time rationales. We developed both an online questionnaire and a custom browser plugin to gather this dataset with high fidelity. Using OPERA, we establish the first benchmark to evaluate how well current LLMs can predict a specific user's next action and rationale with a given persona and history. This dataset lays the groundwork for future research into LLM agents that aim to act as personalized digital twins for human.

OPeRA: A Dataset of Observation, Persona, Rationale, and Action for Evaluating LLMs on Human Online Shopping Behavior Simulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册