ShopGym: An Integrated Framework for Realistic Simulation and Scalable Benchmarking of E-Commerce Web Agents

作者: Chinmay Savadikar, Mingyu Zhao, Yuanzheng Zhu, Han Li, Shuang Xie, Alberto Castelo, Tianfu Wu, Lingyun Wang

分类: cs.AI

发布日期: 2026-05-15

备注: 32 pages, 10 figures

💡 一句话要点

ShopGym：用于电商Web Agent的逼真模拟与可扩展基准测试的集成框架

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 电商Web Agent 模拟环境 基准测试 强化学习 可扩展性

📋 核心要点

现有电商Agent评估方法在真实性与可控性之间存在trade-off，真实在线商店难以控制和复现，而手工沙盒缺乏真实性和多样性。
ShopGym框架通过ShopArena模拟真实商店环境，并利用ShopGuru生成基于商店属性的基准任务，实现可控、可复现的评估。
实验结果表明，ShopGym生成的合成商店保留了真实商店的关键结构属性，且Agent在合成商店上的性能与真实商店呈正相关。

📝 摘要（中文）

开发和评估电商Web Agent需要能够保持有意义的任务结构，同时实现可控、可复现和可扩展的科学比较的环境。现有的方法需要在真实性与可控性之间进行权衡：真实的在线商店提供了真实性，但它们是非静态的、难以检查的和不可复现的；而手工构建的沙盒基准测试提供了可控性，但仅覆盖了有限的布局、目录、策略和交互模式。我们认为，核心瓶颈在于方法论：该领域缺乏一种可扩展的方式来构建同时具有真实性、多样性、可控性、可检查性和可复现性的评估设置。我们介绍了ShopGym，一个用于电商Web Agent的逼真模拟和可扩展基准测试的集成框架。ShopGym是一个用于构建电商模拟环境和基于现实的基准任务的框架。其模拟层ShopArena通过匿名化的商店规范和一个分阶段的、经过验证的生成过程，将真实的种子商店转换为独立的沙盒商店。在这些模拟商店之上，ShopGuru综合了跨越七个技能类别的基准任务，并将每个任务都基于商店的目录、导航结构、策略和交互能力。ShopArena和ShopGuru共同生成了独立的、可重置的、可检查的和稳定的评估工件，这些工件保留了与购物任务相关的结构属性和Agent评估信号。我们通过基于图的结构分析和基于Agent的行为评估（使用跨六个沙盒商店生成的224个任务）来验证该框架。我们的结果表明，合成商店保留了在线商店的关键结构属性，并且Agent在合成商店上的性能与在在线商店上的性能呈正相关。

🔬 方法详解

问题定义：现有电商Web Agent的评估环境要么不够真实（手工构建的沙盒），要么难以控制和复现（真实在线商店）。缺乏一个既真实又可控、可扩展的评估框架，阻碍了电商Agent的有效开发和评估。

核心思路：ShopGym的核心思路是通过模拟真实电商环境，并在此基础上生成可控的基准测试任务，从而解决真实性和可控性的trade-off。通过ShopArena将真实商店转化为可控的沙盒环境，再利用ShopGuru生成基于商店属性的基准任务。

技术框架：ShopGym包含两个主要模块：ShopArena和ShopGuru。ShopArena负责构建模拟的电商环境，它首先将真实的种子商店进行匿名化处理，然后通过一个分阶段的、经过验证的生成过程，将其转换为独立的沙盒商店。ShopGuru则负责生成基准测试任务，它根据商店的目录、导航结构、策略和交互能力，综合了跨越七个技能类别的任务。

关键创新：ShopGym的关键创新在于它提供了一个可扩展的方式来构建同时具有真实性、多样性、可控性、可检查性和可复现性的电商Agent评估环境。它通过模拟真实商店环境，并在此基础上生成可控的基准测试任务，从而解决了真实性和可控性的trade-off。

关键设计：ShopArena使用匿名化的商店规范来描述商店的结构和内容，并采用分阶段的生成过程来确保生成的沙盒商店的质量。ShopGuru则根据商店的属性来生成基准测试任务，例如，根据商店的目录来生成搜索任务，根据商店的导航结构来生成浏览任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，ShopGym生成的合成商店保留了真实商店的关键结构属性。Agent在合成商店上的性能与在真实商店上的性能呈正相关，验证了ShopGym的有效性。通过224个任务在六个沙盒商店（三个合成，三个真实）上的测试，证明了框架的实用性。

🎯 应用场景

ShopGym可用于电商Web Agent的开发、测试和评估，帮助研究人员和开发者更有效地构建和改进电商Agent。它还可以用于比较不同Agent的性能，从而推动电商Agent领域的发展。此外，该框架可以扩展到其他类型的Web Agent，例如旅游Agent和金融Agent。

📄 摘要（原文）

Developing and evaluating e-commerce web agents requires environments that preserve meaningful task structure while enabling controllable, reproducible, and scalable scientific comparison. Existing methodologies force a tradeoff: live storefronts provide realism but are non-stationary, difficult to inspect, and irreproducible, while hand-built sandbox benchmarks provide control but cover only a narrow range of layouts, catalogs, policies, and interaction patterns. We argue that the core bottleneck is methodological: the field lacks a scalable way to construct evaluation settings that are simultaneously realistic, diverse, controllable, inspectable, and reproducible. We introduce ShopGym, an integrated framework for realistic simulation and scalable benchmarking of e-commerce web agents. ShopGym is a framework for constructing e-commerce simulation environments and grounded benchmark tasks. Its simulation layer, ShopArena, converts live seed storefronts into self-contained sandbox shops through anonymized shop specifications and a staged, validated generation process. On top of these simulated storefronts, ShopGuru synthesizes benchmark tasks across seven skill categories, grounding each task in the shop's catalog, navigation structure, policies, and interaction affordances. Together, ShopArena and ShopGuru produce self-contained, resettable, inspectable, and stable evaluation artifacts that preserve structural properties and agent-evaluation signals relevant to shopping tasks. We validate the framework through graph-based structural analysis and agent-based behavioral evaluation with 224 generated tasks across six sandbox shops: three constructed with synthetic data and three with real data. Our results show that the synthetic shops preserve key structural properties of live storefronts, with agent performance on synthetic shops positively correlated with performance on live storefronts.

ShopGym: An Integrated Framework for Realistic Simulation and Scalable Benchmarking of E-Commerce Web Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理