Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

📄 arXiv: 2505.24878v1 📥 PDF

作者: Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen

分类: cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2025-05-30

备注: Code at: https://github.com/MetaAgentX/OpenCaptchaWorld


💡 一句话要点

提出Open CaptchaWorld平台,用于评估多模态LLM智能体在验证码任务中的推理与交互能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM 验证码 Web智能体 视觉推理 交互能力

📋 核心要点

  1. 现有Web智能体在实际应用中受限于验证码,多模态LLM智能体处理验证码的能力未经充分测试。
  2. Open CaptchaWorld平台通过多样验证码谜题,评估MLLM智能体的视觉推理和交互能力。
  3. 实验表明,现有MLLM智能体在验证码任务中表现远低于人类水平,突显了该基准的重要性。

📝 摘要(中文)

本文提出了Open CaptchaWorld,这是一个基于Web的综合性平台,专门用于测试和评估多模态LLM智能体。由于验证码一直是Web智能体在实际应用中部署的关键瓶颈,阻碍了它们完成端到端自动化任务。尽管现代多模态LLM智能体在静态感知任务中表现出令人印象深刻的性能,但它们处理交互式、多步骤推理挑战(如验证码)的能力在很大程度上未经测试。Open CaptchaWorld旨在填补这一空白,它是一个基准和平台,通过多样化和动态的验证码谜题来评估MLLM驱动的智能体的视觉推理和交互能力。该基准涵盖20种现代验证码类型,总计225个验证码,并使用了一种新的度量标准:验证码推理深度,用于量化解决每个谜题所需的认知和运动步骤的数量。实验结果表明,人类始终如一地获得接近完美的得分,而最先进的MLLM智能体则表现不佳,Browser-Use Openai-o3的成功率最高仅为40.0%,远低于人类水平的93.3%。这突显了Open CaptchaWorld作为诊断当前多模态智能体局限性以及指导更强大的多模态推理系统开发的重要基准。

🔬 方法详解

问题定义:论文旨在解决多模态LLM智能体在处理复杂、交互式的验证码任务时能力不足的问题。现有方法主要集中在静态图像识别,缺乏对多步骤推理和交互能力的评估,导致Web智能体难以完成端到端的自动化任务。验证码的设计也在不断演进,对智能体的鲁棒性和泛化性提出了更高的要求。

核心思路:论文的核心思路是构建一个全面、动态的Web环境,包含多种类型的验证码,并设计相应的评估指标,以系统地测试和比较不同MLLM智能体在解决验证码任务时的性能。通过量化验证码的推理深度,可以更精确地评估智能体的认知和运动能力。

技术框架:Open CaptchaWorld平台包含以下主要组成部分:1) 多样化的验证码数据集,涵盖20种现代验证码类型,共计225个验证码实例。2) 基于Web的交互环境,允许智能体通过浏览器进行交互。3) 评估指标,包括成功率和验证码推理深度。智能体通过与Web环境交互,尝试解决验证码,平台记录智能体的行为并计算评估指标。

关键创新:该论文的关键创新在于:1) 提出了Open CaptchaWorld平台,是首个专门用于评估MLLM智能体在验证码任务中表现的Web基准。2) 提出了验证码推理深度(Captcha Reasoning Depth)这一新的度量标准,用于量化解决验证码所需的认知和运动步骤,从而更全面地评估智能体的能力。3) 构建了包含多种现代验证码类型的多样化数据集,更贴近实际应用场景。

关键设计:验证码推理深度(CRD)的计算方法未知,但它考虑了解决验证码所需的认知和运动步骤的数量。平台使用了标准的Web技术,允许智能体通过模拟浏览器行为进行交互。具体使用的MLLM智能体包括Browser-Use Openai-o3,但论文未详细描述其内部结构和参数设置。数据集的构建过程和验证码类型的选择标准也未详细说明。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,人类在Open CaptchaWorld平台上的验证码解决成功率高达93.3%,而最先进的MLLM智能体Browser-Use Openai-o3的成功率仅为40.0%。这表明当前MLLM智能体在处理复杂验证码任务时,与人类水平存在显著差距,突显了Open CaptchaWorld平台作为评估和改进MLLM智能体的重要价值。

🎯 应用场景

Open CaptchaWorld平台可用于评估和改进多模态LLM智能体在Web自动化、信息检索、智能助手等领域的应用。通过该平台,研究人员可以诊断现有智能体的局限性,并开发更鲁棒、更智能的系统,从而提高Web智能体的自动化水平和用户体验。该平台还有助于推动验证码技术的发展,设计更安全、更人性化的验证码方案。

📄 摘要(原文)

CAPTCHAs have been a critical bottleneck for deploying web agents in real-world applications, often blocking them from completing end-to-end automation tasks. While modern multimodal LLM agents have demonstrated impressive performance in static perception tasks, their ability to handle interactive, multi-step reasoning challenges like CAPTCHAs is largely untested. To address this gap, we introduce Open CaptchaWorld, the first web-based benchmark and platform specifically designed to evaluate the visual reasoning and interaction capabilities of MLLM-powered agents through diverse and dynamic CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225 CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth, which quantifies the number of cognitive and motor steps required to solve each puzzle. Experimental results show that humans consistently achieve near-perfect scores, state-of-the-art MLLM agents struggle significantly, with success rates at most 40.0% by Browser-Use Openai-o3, far below human-level performance, 93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing the limits of current multimodal agents and guiding the development of more robust multimodal reasoning systems. Code and Data are available at this https URL.