HLL: Can Agents Cross Humanity's Last Line of Verification?

📄 arXiv: 2606.02449v1 📥 PDF

作者: Xinhao Song, Su Su, Sirui Song, Hongliang Wu, Wen Shen, Zhihua Wei, Gongshen Liu, Linfeng Zhang, Dongrui Liu

分类: cs.AI, cs.CL, cs.CV, cs.LG, cs.MM

发布日期: 2026-06-01

备注: 27 pages, 14 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出HLL基准测试,评估多模态Agent在交互式验证码破解中的类人能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态Agent 验证码破解 人机交互 基准测试 类人行为 GUI环境 自动化

📋 核心要点

  1. 现有Agent难以在服务刻意防御自动化的场景中替代人类,尤其是在需要交互的验证码破解任务中。
  2. 提出HLL基准测试,通过模拟真实场景的交互式验证码,评估Agent的类人交互能力,而非单纯的识别能力。
  3. 实验表明,现有Agent在HLL基准测试中表现不佳,在定位、动作校准、状态跟踪和过程一致性方面存在差距。

📝 摘要(中文)

多模态Agent越来越多地被期望代表用户操作各种界面,这引出了一个核心部署问题:在服务刻意防止自动化的工作流程中,它们真的可以替代人类吗?验证码验证使这个问题具体化。它不仅仅是一个视觉谜题,还是在账户创建、内容访问、表单提交和其他受保护操作之前设置的人工验证边界。我们引入了 extbf{人类最后一道验证防线(HLL)},这是一个受控的基准测试,它使用交互式验证码验证来评估Agent是否可以通过基于常识的、类人的交互而不是仅仅依靠识别来跨越这个边界。HLL涵盖了各种验证码交互,并将Agent暴露于受控的现实压力因素,包括杂乱的网页、更难的任务变体以及求解过程的轨迹条件验证。我们在一个闭环GUI环境中评估了八个前沿的多模态Agent。结果表明,当前的Agent在这个人类替代边界上仍然很脆弱:性能在各种验证类型之间差异很大,在真实的界面条件下会降低,并且在正确答案必须由有效的操作轨迹支持时会进一步下降。通过暴露在定位、动作校准、状态跟踪和过程一致性方面的差距,HLL提供了一个具体的测试平台,用于衡量多模态Agent在受保护的真实世界工作流程中充当人类替代者的接近程度。我们的代码可在https://github.com/XinhaoS0101/HLL获得。

🔬 方法详解

问题定义:论文旨在评估多模态Agent在交互式验证码破解任务中替代人类的能力。现有方法主要集中在视觉识别,忽略了验证码交互的复杂性和真实场景的干扰,导致Agent在实际应用中表现不佳。验证码作为“人类最后一道验证防线”,其设计初衷就是为了区分人类和机器,因此对Agent提出了更高的要求,包括理解验证码的意图、规划操作步骤、执行精确动作等。

核心思路:论文的核心思路是构建一个更贴近真实场景的基准测试环境,即HLL,该环境不仅包含各种类型的验证码,还模拟了真实网页的复杂布局和交互方式。通过HLL,可以更全面地评估Agent的类人交互能力,包括视觉感知、动作规划、状态跟踪和过程一致性。

技术框架:HLL基准测试包含以下几个主要组成部分:1) 多种类型的交互式验证码,例如图像选择、文本输入、滑动验证等;2) 模拟真实网页的GUI环境,包含杂乱的布局、广告等干扰因素;3) 评估指标,用于衡量Agent的破解成功率和操作轨迹的合理性;4) 压力测试,通过增加验证码难度、限制操作时间等方式,评估Agent的鲁棒性。

关键创新:HLL的关键创新在于其对真实场景的模拟和对Agent类人交互能力的全面评估。与以往的验证码破解研究不同,HLL不仅关注Agent的识别准确率,还关注其操作轨迹的合理性和过程一致性。此外,HLL还引入了轨迹条件验证,要求Agent的操作轨迹必须符合人类的习惯和逻辑,进一步提高了评估的难度和准确性。

关键设计:HLL的关键设计包括:1) 验证码类型的多样性,涵盖了常见的交互式验证码;2) GUI环境的真实性,模拟了真实网页的布局和交互方式;3) 评估指标的全面性,包括破解成功率、操作轨迹合理性、过程一致性等;4) 压力测试的强度,通过调整验证码难度和操作时间,评估Agent的鲁棒性。具体的参数设置和网络结构取决于所评估的Agent。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有Agent在HLL基准测试中表现不佳,破解成功率远低于人类。Agent在不同类型的验证码上的表现差异很大,且在真实场景下性能明显下降。轨迹条件验证进一步降低了Agent的破解成功率,表明现有Agent在操作轨迹的合理性和过程一致性方面存在明显不足。例如,某些Agent在图像选择验证码上的成功率仅为20%。

🎯 应用场景

该研究成果可应用于评估和改进多模态Agent在自动化任务中的可靠性和安全性。通过HLL基准测试,可以发现Agent在类人交互方面的不足,并针对性地进行优化,从而提高Agent在实际应用中的表现。此外,该研究还可以促进验证码技术的发展,设计更难以被机器破解但易于人类使用的验证码。

📄 摘要(原文)

Multimodal agents are increasingly expected to operate interfaces on behalf of users, raising a central deployment question: can they truly substitute for humans in workflows that services deliberately protect against automation? CAPTCHA verification makes this question concrete. It is not merely a visual puzzle, but a human-verification boundary placed before account creation, content access, form submission, and other protected actions. We introduce \textbf{Humanity's Last Line of Verification (HLL)}, a controlled benchmark that uses interactive CAPTCHA verification to evaluate whether agents can cross this boundary through grounded, human-like interaction rather than recognition alone. HLL covers diverse CAPTCHA interactions and exposes agents to controlled realism stressors, including cluttered webpages, harder task variants, and trace-conditioned validation of the solving process. We evaluate eight frontier multimodal agents in a closed-loop GUI environment. The results show that current agents remain brittle at this human-substitution boundary: performance varies sharply across verification types, degrades under realistic interface conditions, and drops further when correct answers must be supported by valid action traces. By exposing gaps in localization, action calibration, state tracking, and process consistency, HLL provides a concrete testbed for measuring how close multimodal agents are to acting as human substitutes in protected real-world workflows. Our code is available at https://github.com/XinhaoS0101/HLL