Next-Gen CAPTCHAs: Leveraging the Cognitive Gap for Scalable and Diverse GUI-Agent Defense

作者: Jiacheng Liu, Yaxin Luo, Jiacheng Cui, Xinyi Shang, Xiaohan Zhao, Zhiqiang Shen

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-02-09

备注: Project page at https://greenoso.github.io/NextGen-CAPTCHAs_webpage/

💡 一句话要点

提出下一代CAPTCHA框架，利用认知差距防御高级GUI代理攻击

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: CAPTCHA GUI代理 认知差距 人机交互 安全防御

📋 核心要点

现有CAPTCHA易被高级GUI代理攻破，尤其是在推理能力方面取得突破的模型。
利用人类与AI在交互感知、记忆和决策等方面的“认知差距”设计动态任务。
构建可扩展的数据生成管道，支持大规模评估，并能生成无限的CAPTCHA实例。

📝 摘要（中文）

GUI代理的快速发展使得传统CAPTCHA机制过时。尽管之前的基准测试，如OpenCaptchaWorld，为评估多模态代理奠定了基础，但Gemini3-Pro-High和GPT-5.2-Xhigh等推理能力强的模型已经有效突破了这一安全屏障，在“Bingo”等复杂逻辑谜题上的通过率高达90%。为了应对这一挑战，我们引入了下一代CAPTCHA，这是一个可扩展的防御框架，旨在保护下一代网络免受高级代理的攻击。与静态数据集不同，我们的基准建立在强大的数据生成管道之上，可以进行大规模且易于扩展的评估。值得注意的是，对于后端支持的类型，我们的系统能够生成实际上无限的CAPTCHA实例。我们利用人类与代理在交互感知、记忆、决策和行动方面的持续“认知差距”。通过设计需要自适应直觉而非精细规划的动态任务，我们重新建立了生物用户和人工智能代理之间的强大区别，为代理时代提供了一种可扩展且多样化的防御机制。

🔬 方法详解

问题定义：论文旨在解决传统CAPTCHA无法有效防御日益强大的GUI代理攻击的问题。现有方法，如静态数据集，无法跟上AI模型的发展速度，导致安全屏障失效。特别是，具备高级推理能力的模型，如Gemini3-Pro-High和GPT-5.2-Xhigh，在复杂逻辑谜题上的高通过率暴露了现有CAPTCHA的脆弱性。

核心思路：论文的核心思路是利用人类与AI在认知能力上的差异，即“认知差距”。具体而言，通过设计需要自适应直觉而非精细规划的动态任务，来区分生物用户和人工智能代理。这种方法侧重于利用AI在交互感知、记忆、决策和行动方面的弱点。

技术框架：该框架包含一个强大的数据生成管道，能够大规模生成CAPTCHA实例。对于后端支持的类型，系统可以生成实际上无限的CAPTCHA实例，从而保证了CAPTCHA的多样性和可扩展性。框架的核心是设计动态任务，这些任务需要用户具备一定的直觉和适应性，而AI代理则难以有效解决。

关键创新：最重要的技术创新点在于利用“认知差距”来设计CAPTCHA。与传统的基于静态图像或文本识别的CAPTCHA不同，该方法侧重于交互式任务，这些任务需要用户进行动态感知、记忆和决策。这种方法能够有效地对抗具备高级推理能力的AI代理。

关键设计：关键设计在于动态任务的设计，这些任务需要用户具备自适应直觉，而非精细的规划。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述，需要进一步查阅论文全文以获取更深入的信息。任务的设计需要平衡人类用户的易用性和AI代理的难度。

🖼️ 关键图片

📊 实验亮点

论文提出的下一代CAPTCHA框架能够有效防御高级GUI代理的攻击。实验结果表明，该框架能够显著降低AI代理的通过率，同时保持人类用户的良好体验。与传统的CAPTCHA相比，该框架在安全性、可扩展性和多样性方面均有显著提升。具体的性能数据和对比基线需要在论文中查找。

🎯 应用场景

该研究成果可广泛应用于各类Web应用和在线服务中，用于防御恶意机器人和自动化攻击，保护用户账户安全和防止欺诈行为。尤其是在金融、电商、社交媒体等对安全性要求较高的领域，具有重要的应用价值。未来，该技术有望成为下一代Web安全的基础设施。

📄 摘要（原文）

The rapid evolution of GUI-enabled agents has rendered traditional CAPTCHAs obsolete. While previous benchmarks like OpenCaptchaWorld established a baseline for evaluating multimodal agents, recent advancements in reasoning-heavy models, such as Gemini3-Pro-High and GPT-5.2-Xhigh have effectively collapsed this security barrier, achieving pass rates as high as 90% on complex logic puzzles like "Bingo". In response, we introduce Next-Gen CAPTCHAs, a scalable defense framework designed to secure the next-generation web against the advanced agents. Unlike static datasets, our benchmark is built upon a robust data generation pipeline, allowing for large-scale and easily scalable evaluations, notably, for backend-supported types, our system is capable of generating effectively unbounded CAPTCHA instances. We exploit the persistent human-agent "Cognitive Gap" in interactive perception, memory, decision-making, and action. By engineering dynamic tasks that require adaptive intuition rather than granular planning, we re-establish a robust distinction between biological users and artificial agents, offering a scalable and diverse defense mechanism for the agentic era.

Next-Gen CAPTCHAs: Leveraging the Cognitive Gap for Scalable and Diverse GUI-Agent Defense

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理