BounTCHA: A CAPTCHA Utilizing Boundary Identification in Guided Generative AI-extended Videos

📄 arXiv: 2501.18565v3 📥 PDF

作者: Lehao Lin, Ke Wang, Maha Abdallah, Wei Cai

分类: cs.CR, cs.AI, cs.HC

发布日期: 2025-01-30 (更新: 2025-04-01)

备注: 22 pages, 15 figures; references added, typos corrected, new keyword "guided" added, new experimental data and related results updated; new keyword "Generative AI" added for clarity


💡 一句话要点

BounTCHA:利用生成式AI扩展视频中的边界识别,设计新型CAPTCHA机制

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CAPTCHA 生成式AI 视频边界识别 人机验证 Web安全

📋 核心要点

  1. 现有CAPTCHA系统易被AI机器人绕过,对Web应用安全构成威胁,亟需新型CAPTCHA机制。
  2. BounTCHA利用人类对视频边界变化的敏感性,结合生成式AI扩展视频内容,制造AI难以识别的突变。
  3. 实验验证了BounTCHA能够有效区分人类用户和机器人,并具备抵抗多种攻击的安全能力。

📝 摘要(中文)

近年来,人工智能特别是多模态大型语言模型(MLLM)的快速发展,使其能够理解文本、图像、视频和其他多媒体数据,从而使AI系统能够根据人类提供的提示执行各种任务。然而,AI驱动的机器人已经越来越能够绕过大多数现有的CAPTCHA系统,对Web应用程序构成重大的安全威胁。这使得设计新的CAPTCHA机制成为当务之急。我们观察到,人类对视频中的变化和突变高度敏感,而当前的AI系统仍然难以有效地理解和响应这种情况。基于此,我们设计并实现了BounTCHA,一种利用人类对视频转换和中断中边界的感知的CAPTCHA机制。通过利用生成式AI扩展原始视频的能力,我们引入了意想不到的转折和变化,从而创建了一个生成用于CAPTCHA目的的引导短视频的流水线。我们开发了一个原型并进行了实验,以收集关于人类在边界识别中的时间偏差的数据。该数据作为区分人类用户和机器人的基础。此外,我们对BounTCHA进行了详细的安全分析,证明了其对各种类型攻击的抵抗能力。我们希望BounTCHA能够成为一种强大的防御手段,在AI驱动的时代保护数百万个Web应用程序。

🔬 方法详解

问题定义:当前CAPTCHA系统面临的最大问题是AI驱动的机器人能够轻易绕过它们,导致Web应用程序面临严重的安全风险。现有的CAPTCHA机制无法有效区分人类用户和高级AI,尤其是在多模态大型语言模型快速发展的背景下。

核心思路:BounTCHA的核心思路是利用人类对视频中边界(如突变、转折)的敏感性,而目前的AI系统在理解和响应这些边界变化方面仍然存在困难。通过在视频中引入由生成式AI驱动的、人类容易感知但AI难以理解的“意外”,从而区分人类和机器人。

技术框架:BounTCHA的整体框架包含以下几个主要阶段:1) 原始视频选择:选择一段短视频作为基础。2) 提示生成:设计用于引导生成式AI扩展视频的提示。3) 视频扩展:使用生成式AI根据提示扩展原始视频,引入边界变化。4) 用户交互:向用户展示扩展后的视频,并要求用户识别或响应视频中的边界变化。5) 验证:根据用户的响应与预设的边界信息进行比对,判断用户是人类还是机器人。

关键创新:BounTCHA的关键创新在于将生成式AI与人类感知特性相结合,创造了一种新型的CAPTCHA机制。它不同于传统的基于图像识别或文本识别的CAPTCHA,而是利用了AI在理解视频内容和边界变化方面的局限性。这种方法具有更高的安全性和鲁棒性。

关键设计:BounTCHA的关键设计包括:1) 提示工程:精心设计的提示能够引导生成式AI创造出既具有视觉吸引力又包含难以预测的边界变化的视频内容。2) 时间偏差分析:通过实验收集人类在识别视频边界时的时间偏差数据,用于设置验证阈值,从而更准确地区分人类和机器人。3) 安全分析:对BounTCHA进行全面的安全分析,评估其抵抗各种攻击的能力,例如对抗性攻击、模型逆向等。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究通过实验验证了BounTCHA的有效性,证明其能够有效区分人类用户和机器人。实验结果表明,BounTCHA对各种类型的攻击具有较强的抵抗能力,例如对抗性攻击。此外,研究还收集了关于人类在边界识别中的时间偏差数据,为BounTCHA的参数设置提供了依据。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

BounTCHA可广泛应用于各种需要区分人类用户和机器人的Web应用程序中,例如在线论坛、电子商务平台、社交媒体网站等。它可以有效防止恶意机器人攻击,例如垃圾邮件、账户盗用、DDoS攻击等,从而提高Web应用程序的安全性和用户体验。未来,BounTCHA还可以与其他安全机制相结合,构建更强大的Web安全防御体系。

📄 摘要(原文)

In recent years, the rapid development of artificial intelligence (AI) especially multi-modal Large Language Models (MLLMs), has enabled it to understand text, images, videos, and other multimedia data, allowing AI systems to execute various tasks based on human-provided prompts. However, AI-powered bots have increasingly been able to bypass most existing CAPTCHA systems, posing significant security threats to web applications. This makes the design of new CAPTCHA mechanisms an urgent priority. We observe that humans are highly sensitive to shifts and abrupt changes in videos, while current AI systems still struggle to comprehend and respond to such situations effectively. Based on this observation, we design and implement BounTCHA, a CAPTCHA mechanism that leverages human perception of boundaries in video transitions and disruptions. By utilizing generative AI's capability to extend original videos with prompts, we introduce unexpected twists and changes to create a pipeline for generating guided short videos for CAPTCHA purposes. We develop a prototype and conduct experiments to collect data on humans' time biases in boundary identification. This data serves as a basis for distinguishing between human users and bots. Additionally, we perform a detailed security analysis of BounTCHA, demonstrating its resilience against various types of attacks. We hope that BounTCHA will act as a robust defense, safeguarding millions of web applications in the AI-driven era.