From Imitation to Discrimination: Progressive Curriculum Learning for Robust Web Navigation

📄 arXiv: 2604.12666v1 📥 PDF

作者: Chuang Peng, Wei Zhang, Renshuai Tao, Xinhao Zhang, Jian Yang

分类: cs.LG, cs.CL, cs.HC

发布日期: 2026-04-14

备注: 17 pages, 10 figures


💡 一句话要点

提出渐进式课程学习以解决网页导航的鲁棒性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 网页导航 渐进式课程学习 鲁棒性 负样本挖掘 模型训练 信息检索 自动化代理

📋 核心要点

  1. 现有的标准监督微调方法在网页导航中缺乏辨别能力,无法有效拒绝错误的元素,且对新网站布局的泛化能力有限。
  2. 本文提出了Triton数据集和渐进式训练课程,通过结构-语义困难负样本挖掘和双代理共识管道来增强模型的鲁棒性。
  3. 实验结果表明,Triton-GRPO-32B在Mind2Web上达到了58.7%的步骤成功率,显著优于其他开源模型,验证了方法的有效性。

📝 摘要(中文)

基于文本的网页代理在自主网页导航中提供了计算效率,但由于真实世界HTML的噪声和异质性,开发鲁棒的代理仍然具有挑战性。标准的监督微调方法在拒绝密集页面中看似合理但不正确的元素方面缺乏辨别能力,并且对未见网站布局的泛化能力有限。为了解决这些挑战,本文引入了Triton数据集(590k实例)和渐进式训练课程。Triton通过结构-语义困难负样本挖掘构建,明确挖掘拓扑相似的干扰项,并通过双代理共识管道合成多样的跨域任务。基于此基础,我们的渐进式课程生成了三个模型:Triton-SFT-32B用于基本模仿,Triton-ORPO-32B通过赔率比偏好优化实现鲁棒辨别,Triton-GRPO-32B通过组相对策略优化实现长时间一致性。在Mind2Web上的实证评估表明,Triton-GRPO-32B在开源模型中实现了58.7%的步骤成功率,超过了GPT-4.5(42.4%)和Claude-4.5(41.4%)超过16%,验证了专门数据课程在网页导航中的重要性。

🔬 方法详解

问题定义:本文旨在解决文本基础网页代理在真实环境中面临的鲁棒性问题,现有方法在辨别错误元素和泛化新布局方面存在不足。

核心思路:通过引入渐进式课程学习和结构-语义困难负样本挖掘,增强模型的辨别能力和泛化能力,确保代理能够在复杂的网页环境中有效导航。

技术框架:整体架构包括数据集构建、模型训练和评估三个主要阶段。首先,通过困难负样本挖掘生成Triton数据集,然后训练三个不同的模型以实现不同的目标,最后在Mind2Web上进行评估。

关键创新:最重要的创新在于引入了渐进式课程学习和双代理共识管道,这些方法显著提升了模型的鲁棒性和辨别能力,与传统的监督微调方法形成鲜明对比。

关键设计:在模型训练中,采用了赔率比偏好优化和组相对策略优化等技术细节,以确保模型在长时间内保持一致性和高效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在Mind2Web上的实验结果显示,Triton-GRPO-32B模型达到了58.7%的步骤成功率,显著超过了GPT-4.5和Claude-4.5,提升幅度超过16%。这一结果验证了专门数据课程在网页导航中的重要性,表明模型的设计优于单纯的参数规模扩展。

🎯 应用场景

该研究的潜在应用领域包括自动化网页抓取、信息检索和智能助手等。通过提高网页导航的鲁棒性,能够更好地支持用户在复杂网络环境中的信息获取,具有重要的实际价值和广泛的应用前景。

📄 摘要(原文)

Text-based web agents offer computational efficiency for autonomous web navigation, yet developing robust agents remains challenging due to the noisy and heterogeneous nature of real-world HTML. Standard Supervised Fine-Tuning (SFT) approaches fail in two critical dimensions: they lack discrimination capabilities to reject plausible but incorrect elements in densely populated pages, and exhibit limited generalization to unseen website layouts. To address these challenges, we introduce the Triton dataset (590k instances) and a progressive training curriculum. Triton is constructed via Structural-Semantic Hard Negative Mining, which explicitly mines topologically similar distractors, and a Dual-Agent Consensus pipeline that synthesizes diverse cross-domain tasks with strict verification. Building upon this foundation, our progressive curriculum produces three models: Triton-SFT-32B for basic imitation, Triton-ORPO-32B for robust discrimination via Odds Ratio Preference Optimization, and Triton-GRPO-32B for long-horizon consistency through Group Relative Policy Optimization. Empirical evaluation on Mind2Web demonstrates that Triton-GRPO-32B achieves state-of-the-art performance among open-source models with 58.7% Step Success Rate, surpassing GPT-4.5 (42.4%) and Claude-4.5 (41.4%) by over 16%, validating that specialized data curriculum outweighs raw parameter scale for web navigation.