GUI-CIDER: Mid-training GUI Agents via Causal Internalization and Density-aware Exemplar Reselection

📄 arXiv: 2605.28534v1 📥 PDF

作者: Zheng Wu, Chengcheng Han, Zhengxi Lu, Tianjie Ju, Yanyu Chen, Qi Gu, Xunliang Cai, Zhuosheng Zhang

分类: cs.CL

发布日期: 2026-05-27

🔗 代码/项目: GITHUB


💡 一句话要点

GUI-CIDER:通过因果内化和密度感知范例重选,提升GUI智能体在训练中的世界知识。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI智能体 因果内化 密度感知 范例重选 中间训练 世界知识 多模态大语言模型

📋 核心要点

  1. 现有GUI智能体缺乏GUI操作相关的世界知识,限制了其在真实世界中的任务完成能力。
  2. GUI-CIDER通过因果内化显式学习GUI世界知识,并使用密度感知范例重选来提高学习效率。
  3. 实验结果表明,GUI-CIDER能有效提升智能体对GUI操作的理解和任务完成成功率。

📝 摘要(中文)

本文提出GUI-CIDER,一种中间训练方法,旨在通过因果内化和密度感知范例重选,显式地将GUI世界知识融入智能体。现有方法依赖昂贵的多智能体脚手架或传统的后训练范式,如监督微调(SFT)和强化学习(RL),效率低下。GUI-CIDER包含三个阶段:(1) 数据合成,将GUI轨迹中的静态规划和动态因果知识提炼为文本;(2) 范例重选,通过奖励因果结构和惩罚语义冗余来过滤语料库;(3) 中间训练,利用精炼的数据嵌入所获取的知识。在两个GUI知识基准和三个任务完成基准上的大量实验表明,GUI-CIDER能够持续提高智能体对GUI操作的理解和任务成功率。

🔬 方法详解

问题定义:现有基于多模态大语言模型的GUI智能体,在实际任务中受限于对GUI操作世界知识的不足。传统的后训练方法(SFT、RL)通过动作标注或奖励信号隐式学习,效率低下,难以真正理解GUI操作的内在逻辑。因此,需要一种能够显式学习GUI世界知识的方法。

核心思路:GUI-CIDER的核心在于通过“因果内化”显式地将GUI世界知识注入到智能体中。它首先从GUI轨迹中提取静态规划和动态因果知识,然后通过范例重选过滤冗余信息,最后利用精炼的数据进行中间训练,从而使智能体更好地理解GUI操作的因果关系。

技术框架:GUI-CIDER包含三个主要阶段:1) 数据合成:从GUI轨迹中提取静态规划知识和动态因果知识,并将其转化为文本形式。2) 范例重选:利用密度感知策略,对合成的数据进行过滤,保留具有代表性的、信息量大的样本,去除冗余样本。3) 中间训练:使用重选后的数据,对智能体进行训练,使其学习GUI世界知识。

关键创新:GUI-CIDER的关键创新在于其“因果内化”的思想,即显式地将GUI操作的因果关系注入到智能体中,而不是像传统方法那样隐式地学习。此外,密度感知范例重选能够有效地提高学习效率,减少冗余信息的干扰。

关键设计:在数据合成阶段,需要设计合适的模板将GUI轨迹转化为文本描述,包括静态规划和动态因果关系。在范例重选阶段,需要设计奖励因果结构和惩罚语义冗余的指标,例如使用图结构表示因果关系,并使用语义相似度度量文本冗余度。在中间训练阶段,可以使用标准的语言模型训练方法,例如交叉熵损失函数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GUI-CIDER在GUI知识基准测试和任务完成基准测试中均取得了显著的提升。具体而言,在GUI知识基准测试中,GUI-CIDER能够显著提高智能体对GUI操作的理解能力。在任务完成基准测试中,GUI-CIDER能够提高任务成功率,并且优于现有的SFT和RL方法。

🎯 应用场景

GUI-CIDER可应用于各种需要与图形用户界面交互的智能体,例如自动化测试、RPA(机器人流程自动化)、智能助手等。通过提升智能体对GUI操作的理解能力,可以提高自动化任务的效率和可靠性,降低人工干预的需求,并为用户提供更智能、更便捷的服务。

📄 摘要(原文)

Despite the rapid progress of multimodal large language models in building Graphical User Interface (GUI) agents, their real-world task completion is fundamentally bottlenecked by a lack of world knowledge about GUI operations. Existing solutions typically rely on expensive multi-agent scaffolding or conventional post-training paradigms, such as Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). However, post-training only allows agents to implicitly absorb world knowledge through action annotations or reward signals, leading to inefficient trajectory memorization rather than genuine comprehension. Therefore, an approach that enables explicit learning of this knowledge is imperative. To this end, we propose GUI-CIDER, a mid-training method that explicitly internalizes GUI world knowledge through Causal Internalization and Density-aware Exemplar Reselection. GUI-CIDER operates in three stages: (1) data synthesis, which distills static planning and dynamic causal knowledge from GUI trajectories into text; (2) exemplar reselection, which filters the corpus by rewarding causal structures and penalizing semantic redundancy; and (3) mid-training, where the refined data is used to embed the acquired knowledge. Extensive experiments on two GUI knowledge benchmarks and three task completion benchmarks demonstrate that GUI-CIDER consistently improves both the agent's understanding of GUI operations and its task success rates.The codes are available at https://github.com/Wuzheng02/GUI-CIDER.