Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

作者: Yaxin Luo, Zhaoyi Li, Jiacheng Liu, Jiacheng Cui, Xiaohan Zhao, Zhiqiang Shen

分类: cs.AI, cs.CL, cs.CV, cs.LG

发布日期: 2025-05-30

备注: Code at: https://github.com/MetaAgentX/OpenCaptchaWorld

💡 一句话要点

提出Open CaptchaWorld以解决多模态LLM代理在CAPTCHA挑战中的不足

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态LLM CAPTCHA 推理深度 视觉推理 自动化测试 网络安全 人机交互

📋 核心要点

现有的多模态LLM代理在处理CAPTCHA等交互式推理任务时表现不佳，成功率远低于人类。
论文提出Open CaptchaWorld平台，通过225个多样化的CAPTCHA测试多模态LLM代理的视觉推理和交互能力。
实验结果显示，当前多模态LLM代理的成功率最高仅为40.0%，远低于人类的93.3%，揭示了其在复杂推理任务中的局限性。

📝 摘要（中文）

CAPTCHA一直是部署网络代理的关键瓶颈，阻碍了其完成端到端自动化任务。尽管现代多模态LLM代理在静态感知任务中表现出色，但在处理交互式、多步骤推理挑战（如CAPTCHA）方面的能力尚未得到充分测试。为了解决这一问题，我们提出了Open CaptchaWorld，这是第一个专门设计用于评估多模态LLM代理视觉推理和交互能力的网络基准平台。我们的基准涵盖20种现代CAPTCHA类型，共计225个CAPTCHA，并引入了一种新的度量标准：CAPTCHA推理深度，量化了解决每个难题所需的认知和运动步骤数量。实验结果表明，人类的成功率接近完美，而最先进的多模态LLM代理的成功率最高仅为40.0%，远低于人类的93.3%。这突显了Open CaptchaWorld作为诊断当前多模态代理局限性的重要基准，并指导更强大的多模态推理系统的发展。

🔬 方法详解

问题定义：本论文旨在解决多模态LLM代理在处理CAPTCHA等复杂推理任务时的能力不足。现有方法在面对动态和交互式的挑战时，表现出显著的局限性，导致成功率远低于人类水平。

核心思路：论文的核心思路是构建一个专门的基准平台Open CaptchaWorld，旨在通过多样化的CAPTCHA测试，系统性地评估和提升多模态LLM代理的视觉推理和交互能力。通过引入新的度量标准CAPTCHA推理深度，量化解决问题所需的认知步骤，帮助研究者更好地理解代理的推理过程。

技术框架：Open CaptchaWorld平台的整体架构包括CAPTCHA生成模块、评估模块和数据分析模块。CAPTCHA生成模块负责创建多样化的CAPTCHA类型，评估模块用于测试代理的表现，数据分析模块则对结果进行统计和分析。

关键创新：最重要的技术创新点在于引入了CAPTCHA推理深度这一新度量标准，能够量化解决CAPTCHA所需的认知和运动步骤。这一创新使得对多模态LLM代理的评估更加全面和深入，能够揭示其在复杂推理任务中的具体弱点。

关键设计：在设计中，CAPTCHA的类型和难度经过精心选择，以确保覆盖多种推理场景。同时，评估过程中采用了标准化的评分机制，以确保结果的可比性和可靠性。

📊 实验亮点

实验结果显示，当前最先进的多模态LLM代理在CAPTCHA任务中的成功率最高仅为40.0%，而人类的成功率高达93.3%。这一显著差距突显了Open CaptchaWorld在评估和改进多模态推理系统中的重要性。

🎯 应用场景

该研究的潜在应用领域包括自动化测试、网络安全和人机交互等。通过提供一个标准化的评估平台，Open CaptchaWorld能够帮助研究人员和开发者更好地理解和提升多模态LLM代理在复杂推理任务中的表现，推动相关技术的进步与应用。

📄 摘要（原文）

CAPTCHAs have been a critical bottleneck for deploying web agents in real-world applications, often blocking them from completing end-to-end automation tasks. While modern multimodal LLM agents have demonstrated impressive performance in static perception tasks, their ability to handle interactive, multi-step reasoning challenges like CAPTCHAs is largely untested. To address this gap, we introduce Open CaptchaWorld, the first web-based benchmark and platform specifically designed to evaluate the visual reasoning and interaction capabilities of MLLM-powered agents through diverse and dynamic CAPTCHA puzzles. Our benchmark spans 20 modern CAPTCHA types, totaling 225 CAPTCHAs, annotated with a new metric we propose: CAPTCHA Reasoning Depth, which quantifies the number of cognitive and motor steps required to solve each puzzle. Experimental results show that humans consistently achieve near-perfect scores, state-of-the-art MLLM agents struggle significantly, with success rates at most 40.0% by Browser-Use Openai-o3, far below human-level performance, 93.3%. This highlights Open CaptchaWorld as a vital benchmark for diagnosing the limits of current multimodal agents and guiding the development of more robust multimodal reasoning systems. Code and Data are available at this https URL.

Open CaptchaWorld: A Comprehensive Web-based Platform for Testing and Benchmarking Multimodal LLM Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册