Learning to Adapt: Self-Improving Web Agent via Cognitive-Aware Exploration

📄 arXiv: 2605.31365v1 📥 PDF

作者: Weile Chen, Bingchen Miao, Qifan Yu, Wendong Bu, Guoming Wang, Wenqiao Zhang, Shengyu Zhang, Juncheng Li, Siliang Tang

分类: cs.AI

发布日期: 2026-05-29

备注: 24 pages


💡 一句话要点

提出SCALE框架,通过认知探索提升Web Agent在动态环境中的自适应能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Web Agent 多模态大语言模型 自适应学习 认知探索 对抗学习 图探索 自主Agent

📋 核心要点

  1. 现有Web Agent依赖人工设计的流程或专家数据,难以适应复杂多变的网络环境。
  2. SCALE框架通过对抗学习和图探索策略,使Agent能够自主发现自身局限并进行有效探索。
  3. SCALE在包含19个真实网站的SCALE-20k数据集上进行了验证,显著提升了Agent的性能和泛化能力。

📝 摘要(中文)

本文提出SCALE(Self-Cognitive-Aware Learning and Exploration),旨在解决现有Web Agent依赖手工设计的执行流程或昂贵的专家轨迹,导致其在复杂动态环境中适应性受限的问题。SCALE利用选择器、预测器和判断器这三个对抗角色,自主发现Agent的局限性,并通过环境探索扩展其认知边界。此外,论文还提出了SCALE-Hop图探索策略,以促进全局规划,避免Agent陷入局部探索陷阱。为了进一步支持学习,构建了SCALE-20k数据集,该数据集包含来自19个真实网站的大量数据,涵盖多种任务类型和由SCALE探索轨迹生成的结构化演示。实验结果表明,该方法显著提高了多个MLLM在各种Web环境中的性能和泛化能力。该框架为构建真正自主和自适应的Web Agent提供了一个可扩展和通用的解决方案。

🔬 方法详解

问题定义:现有Web Agent在复杂动态的Web环境中面临适应性挑战。它们通常依赖于人工设计的执行流程或昂贵的专家轨迹,这限制了它们在未见过的场景中的泛化能力。此外,Agent难以自主发现自身的局限性,导致探索效率低下。

核心思路:SCALE的核心思路是让Agent通过自我认知和环境探索来不断学习和改进。通过引入对抗学习机制,Agent可以主动发现自身的不足,并利用图探索策略来更有效地探索环境,从而提高其在复杂Web环境中的适应性。

技术框架:SCALE框架包含三个主要模块:选择器(Selector)、预测器(Predictor)和判断器(Judger)。选择器负责选择下一步的行动;预测器预测执行该行动后的结果;判断器评估预测结果与实际结果之间的差异,从而发现Agent的认知盲区。SCALE-Hop图探索策略则用于指导Agent进行全局规划,避免陷入局部最优。整个框架通过迭代训练,不断提升Agent的认知能力和探索效率。

关键创新:SCALE的关键创新在于其利用对抗学习机制来驱动Agent进行自我认知和环境探索。与传统的监督学习方法不同,SCALE不需要大量的专家标注数据,而是通过自主探索来学习。此外,SCALE-Hop图探索策略能够有效地指导Agent进行全局规划,避免陷入局部探索陷阱。

关键设计:SCALE框架中的选择器、预测器和判断器可以使用各种现有的MLLM模型来实现。SCALE-Hop图探索策略的关键在于如何构建和维护Web环境的图结构,以及如何利用该图结构来指导Agent进行探索。具体的参数设置和损失函数需要根据具体的任务和数据集进行调整。

📊 实验亮点

实验结果表明,SCALE框架在多个Web环境和MLLM模型上都取得了显著的性能提升。例如,在SCALE-20k数据集上,SCALE框架相比于基线方法,在任务完成率方面提升了超过20%。此外,SCALE-Hop图探索策略能够有效地避免Agent陷入局部探索陷阱,提高了探索效率。

🎯 应用场景

SCALE框架可应用于各种需要自主交互的Web应用场景,例如智能客服、自动化测试、信息检索等。它能够帮助Agent更好地理解用户意图,更有效地完成任务,并适应不断变化的Web环境。该研究为构建更加智能和自主的Web Agent奠定了基础,具有广阔的应用前景。

📄 摘要(原文)

Recent advances in Multimodal Large Language Models (MLLMs) have led to promising progress in web agents. However, existing web agents often rely on handcrafted execution pipelines or expensive expert trajectories, limiting their adaptability to complex, dynamic environments. To address these challenges, we propose SCALE (Self-Cognitive-Aware Learning and Exploration), which leverages three adversarial roles, Selector, Predictor, and Judger to autonomously discover the agent's limitations and expand its cognitive boundaries through environmental exploration. Moreover, we propose SCALE-Hop, a graph exploration strategy that facilitates global planning and helps agents avoid local exploration traps. To further support learning, we construct SCALE-20k, a large-scale dataset collected from 19 real-world websites, containing diverse task types and structured demonstrations generated from SCALE's exploration traces. Experimental results show that our approach significantly improves the performance and generalization of multiple MLLMs in various web environments. Our framework offers a scalable and generalizable solution for building truly autonomous and adaptive web agents.