RiskWebWorld: A Realistic Interactive Benchmark for GUI Agents in E-commerce Risk Management

📄 arXiv: 2604.13531v1 📥 PDF

作者: Renqi Chen, Zeyin Tao, Jianming Guo, Jing Wang, Zezhou Xu, Jingzhe Zhu, Qingqing Sun, Tianyi Zhang, Shuai Chen

分类: cs.AI, cs.LG

发布日期: 2026-04-15


💡 一句话要点

RiskWebWorld:电商风控GUI智能体的真实交互基准

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 电商风控 交互式基准 强化学习 风险管理

📋 核心要点

  1. 现有交互式基准主要针对良性、可预测的消费环境,在高风险的电商风控等调查领域效果不佳。
  2. RiskWebWorld通过模拟真实电商风控场景,提供了一个更具挑战性和实用性的GUI智能体评估环境。
  3. 实验表明,现有模型在RiskWebWorld上表现不佳,但通过强化学习可以显著提升开源模型的性能。

📝 摘要(中文)

本文提出了RiskWebWorld,这是一个高度真实的交互基准,用于评估电商风控中的GUI智能体。RiskWebWorld包含来自8个核心领域的1513个任务,这些任务源于实际生产的风控流程,并捕捉了在不合作网站上进行风险操作以及部分环境劫持的真实挑战。为了支持可扩展的评估和智能体强化学习(RL),我们构建了一个符合Gymnasium的基础设施,将策略规划与环境机制分离。对各种模型的评估表明存在显著的能力差距:顶级的通用模型成功率为49.1%,而专门的开源GUI模型几乎完全失败。这表明,在长期的专业任务中,基础模型的规模比零样本界面理解更重要。我们还通过智能体强化学习证明了我们基础设施的可行性,该方法将开源模型提高了16.2%。这些结果将RiskWebWorld定位为开发强大数字员工的实用测试平台。

🔬 方法详解

问题定义:论文旨在解决现有GUI智能体在真实电商风控场景中表现不佳的问题。现有交互式基准主要关注良性环境,无法有效评估智能体在复杂、对抗性环境下的能力。电商风控任务涉及不合作网站、环境劫持等挑战,对智能体的鲁棒性和泛化能力提出了更高要求。

核心思路:论文的核心思路是构建一个高度真实的电商风控交互环境,即RiskWebWorld。该环境模拟了实际生产中的风控流程,包含了各种真实场景和挑战,从而能够更准确地评估GUI智能体在实际应用中的性能。通过提供一个标准化的评估平台,促进相关算法的研究和发展。

技术框架:RiskWebWorld的技术框架主要包括以下几个部分:1) 真实电商风控任务数据集:包含来自8个核心领域的1513个任务。2) Gymnasium兼容的基础设施:将策略规划与环境机制分离,支持可扩展的评估和强化学习。3) 评估指标:用于衡量智能体在RiskWebWorld上的性能。整体流程是,智能体接收环境状态,输出动作,环境执行动作并返回新的状态和奖励,智能体根据奖励更新策略。

关键创新:RiskWebWorld的关键创新在于其高度的真实性和实用性。它不仅包含了真实的风控任务,还模拟了不合作网站和环境劫持等挑战,更贴近实际应用场景。此外,Gymnasium兼容的基础设施使得RiskWebWorld易于使用和扩展,方便研究人员进行算法开发和评估。

关键设计:RiskWebWorld的关键设计包括:1) 任务选择:从实际生产的风控流程中选取具有代表性的任务。2) 环境模拟:尽可能真实地模拟电商网站的交互界面和行为。3) 奖励函数设计:根据风控任务的目标,设计合理的奖励函数,引导智能体学习正确的行为。4) 评估指标:采用成功率等指标,衡量智能体在完成任务方面的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有通用模型在RiskWebWorld上的成功率为49.1%,而专门的开源GUI模型几乎完全失败,突出了基础模型规模的重要性。通过智能体强化学习,开源模型的性能提高了16.2%,验证了RiskWebWorld作为强化学习平台的有效性。这些结果表明,RiskWebWorld能够有效区分不同模型的性能,并为算法改进提供指导。

🎯 应用场景

RiskWebWorld可用于训练和评估GUI智能体在电商风控、网络安全、自动化测试等领域的应用。通过在该平台上进行研究,可以开发出更鲁棒、更智能的数字员工,提高工作效率,降低风险。未来,可以进一步扩展RiskWebWorld,增加更多类型的任务和挑战,使其更贴近实际应用。

📄 摘要(原文)

Graphical User Interface (GUI) agents show strong capabilities for automating web tasks, but existing interactive benchmarks primarily target benign, predictable consumer environments. Their effectiveness in high-stakes, investigative domains such as authentic e-commerce risk management remains underexplored. To bridge this gap, we present RiskWebWorld, the first highly realistic interactive benchmark for evaluating GUI agents in e-commerce risk management. RiskWebWorld features 1,513 tasks sourced from production risk-control pipelines across 8 core domains, and captures the authentic challenges of risk operations on uncooperative websites, partially environmental hijackments. To support scalable evaluation and agentic reinforcement learning (RL), we further build a Gymnasium-compliant infrastructure that decouples policy planning from environment mechanics. Our evaluation across diverse models reveals a dramatic capability gap: top-tier generalist models achieve 49.1% success, while specialized open-weights GUI models lag at near-total failure. This highlights that foundation model scale currently matters more than zero-shot interface grounding in long-horizon professional tasks. We also demonstrate the viability of our infrastructure through agentic RL, which improves open-source models by 16.2%. These results position RiskWebWorld as a practical testbed for developing robust digital workers.