Next-Gen CAPTCHAs: Leveraging the Cognitive Gap for Scalable and Diverse GUI-Agent Defense
作者: Jiacheng Liu, Yaxin Luo, Jiacheng Cui, Xinyi Shang, Xiaohan Zhao, Zhiqiang Shen
分类: cs.LG, cs.AI, cs.CL
发布日期: 2026-02-09
备注: Project page at https://greenoso.github.io/NextGen-CAPTCHAs_webpage/
💡 一句话要点
提出下一代CAPTCHA框架,利用认知差距防御高级GUI代理攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: CAPTCHA GUI代理 认知差距 人机交互 安全防御
📋 核心要点
- 现有CAPTCHA易被高级GUI代理攻破,尤其是在推理能力方面取得突破的模型。
- 利用人类与AI在交互感知、记忆和决策等方面的“认知差距”设计动态任务。
- 构建可扩展的数据生成管道,支持大规模评估,并能生成无限的CAPTCHA实例。
📝 摘要(中文)
GUI代理的快速发展使得传统CAPTCHA机制过时。尽管之前的基准测试,如OpenCaptchaWorld,为评估多模态代理奠定了基础,但Gemini3-Pro-High和GPT-5.2-Xhigh等推理能力强的模型已经有效突破了这一安全屏障,在“Bingo”等复杂逻辑谜题上的通过率高达90%。为了应对这一挑战,我们引入了下一代CAPTCHA,这是一个可扩展的防御框架,旨在保护下一代网络免受高级代理的攻击。与静态数据集不同,我们的基准建立在强大的数据生成管道之上,可以进行大规模且易于扩展的评估。值得注意的是,对于后端支持的类型,我们的系统能够生成实际上无限的CAPTCHA实例。我们利用人类与代理在交互感知、记忆、决策和行动方面的持续“认知差距”。通过设计需要自适应直觉而非精细规划的动态任务,我们重新建立了生物用户和人工智能代理之间的强大区别,为代理时代提供了一种可扩展且多样化的防御机制。
🔬 方法详解
问题定义:论文旨在解决传统CAPTCHA无法有效防御日益强大的GUI代理攻击的问题。现有方法,如静态数据集,无法跟上AI模型的发展速度,导致安全屏障失效。特别是,具备高级推理能力的模型,如Gemini3-Pro-High和GPT-5.2-Xhigh,在复杂逻辑谜题上的高通过率暴露了现有CAPTCHA的脆弱性。
核心思路:论文的核心思路是利用人类与AI在认知能力上的差异,即“认知差距”。具体而言,通过设计需要自适应直觉而非精细规划的动态任务,来区分生物用户和人工智能代理。这种方法侧重于利用AI在交互感知、记忆、决策和行动方面的弱点。
技术框架:该框架包含一个强大的数据生成管道,能够大规模生成CAPTCHA实例。对于后端支持的类型,系统可以生成实际上无限的CAPTCHA实例,从而保证了CAPTCHA的多样性和可扩展性。框架的核心是设计动态任务,这些任务需要用户具备一定的直觉和适应性,而AI代理则难以有效解决。
关键创新:最重要的技术创新点在于利用“认知差距”来设计CAPTCHA。与传统的基于静态图像或文本识别的CAPTCHA不同,该方法侧重于交互式任务,这些任务需要用户进行动态感知、记忆和决策。这种方法能够有效地对抗具备高级推理能力的AI代理。
关键设计:关键设计在于动态任务的设计,这些任务需要用户具备自适应直觉,而非精细的规划。具体的参数设置、损失函数和网络结构等技术细节在论文中可能未详细描述,需要进一步查阅论文全文以获取更深入的信息。任务的设计需要平衡人类用户的易用性和AI代理的难度。
🖼️ 关键图片
📊 实验亮点
论文提出的下一代CAPTCHA框架能够有效防御高级GUI代理的攻击。实验结果表明,该框架能够显著降低AI代理的通过率,同时保持人类用户的良好体验。与传统的CAPTCHA相比,该框架在安全性、可扩展性和多样性方面均有显著提升。具体的性能数据和对比基线需要在论文中查找。
🎯 应用场景
该研究成果可广泛应用于各类Web应用和在线服务中,用于防御恶意机器人和自动化攻击,保护用户账户安全和防止欺诈行为。尤其是在金融、电商、社交媒体等对安全性要求较高的领域,具有重要的应用价值。未来,该技术有望成为下一代Web安全的基础设施。
📄 摘要(原文)
The rapid evolution of GUI-enabled agents has rendered traditional CAPTCHAs obsolete. While previous benchmarks like OpenCaptchaWorld established a baseline for evaluating multimodal agents, recent advancements in reasoning-heavy models, such as Gemini3-Pro-High and GPT-5.2-Xhigh have effectively collapsed this security barrier, achieving pass rates as high as 90% on complex logic puzzles like "Bingo". In response, we introduce Next-Gen CAPTCHAs, a scalable defense framework designed to secure the next-generation web against the advanced agents. Unlike static datasets, our benchmark is built upon a robust data generation pipeline, allowing for large-scale and easily scalable evaluations, notably, for backend-supported types, our system is capable of generating effectively unbounded CAPTCHA instances. We exploit the persistent human-agent "Cognitive Gap" in interactive perception, memory, decision-making, and action. By engineering dynamic tasks that require adaptive intuition rather than granular planning, we re-establish a robust distinction between biological users and artificial agents, offering a scalable and diverse defense mechanism for the agentic era.