BAMI: Training-Free Bias Mitigation in GUI Grounding
作者: Borui Zhang, Bo Zhang, Bo Wang, Wenzhao Zheng, Yuhao Cheng, Liang Tang, Yiqiang Yan, Jie Zhou, Jiwen Lu
分类: cs.CV, cs.AI
发布日期: 2026-05-07
备注: Accepted by CVPR 2026
🔗 代码/项目: GITHUB
💡 一句话要点
提出BAMI,通过无训练方式缓解GUI grounding中的偏差问题
🎯 匹配领域: 支柱一:机器人控制 (Robot Control)
关键词: GUI grounding 偏差缓解 无训练方法 自动化测试 机器人流程自动化
📋 核心要点
- 现有GUI grounding模型在高分辨率和复杂界面元素下存在精度和歧义偏差,导致性能下降。
- BAMI通过粗到细的聚焦和候选选择,在不进行额外训练的情况下,缓解了GUI grounding中的偏差。
- 实验表明,BAMI能显著提升现有模型的准确率,例如在ScreenSpot-Pro上将TianXi-Action-7B的准确率提升至57.8%。
📝 摘要(中文)
GUI grounding是GUI agent执行点击、拖拽等任务的关键能力。然而,在ScreenSpot-Pro等复杂场景中,现有模型性能欠佳。通过提出的Masked Prediction Distribution (MPD)归因方法,我们发现误差的主要来源是:高图像分辨率(导致精度偏差)和复杂的界面元素(导致歧义偏差)。为了解决这些挑战,我们引入了Bias-Aware Manipulation Inference (BAMI),它包含粗到细的聚焦和候选选择两种关键操作,以有效缓解这些偏差。大量实验结果表明,BAMI显著提高了各种GUI grounding模型在无训练设置下的准确性。例如,将我们的方法应用于TianXi-Action-7B模型,其在ScreenSpot-Pro基准上的准确率从51.9%提高到57.8%。此外,消融研究证实了BAMI方法在不同参数配置下的鲁棒性,突显了其稳定性和有效性。
🔬 方法详解
问题定义:论文旨在解决GUI grounding任务中,由于高分辨率图像和复杂界面元素导致的精度偏差和歧义偏差问题。现有方法在处理此类问题时,往往难以兼顾精度和鲁棒性,导致性能瓶颈。尤其是在ScreenSpot-Pro这样的复杂benchmark上,现有模型的表现与实际应用需求存在差距。
核心思路:论文的核心思路是通过引入Bias-Aware Manipulation Inference (BAMI),在推理阶段对模型预测进行修正,而无需重新训练模型。BAMI的核心在于模拟人类在复杂GUI界面中寻找目标元素时的策略,即先关注整体,再逐步聚焦到细节,并对可能的候选目标进行选择和验证。
技术框架:BAMI主要包含两个阶段:粗到细的聚焦(Coarse-to-Fine Focus)和候选选择(Candidate Selection)。首先,粗到细的聚焦通过逐步缩小搜索范围,降低高分辨率带来的精度偏差。然后,候选选择模块对多个可能的候选目标进行评估,缓解复杂界面元素带来的歧义偏差。整个过程在推理阶段进行,无需修改或重新训练原有的GUI grounding模型。
关键创新:BAMI的关键创新在于其训练无关性(training-free)。与需要大量数据进行重新训练的方法不同,BAMI可以直接应用于现有的GUI grounding模型,提升其在复杂场景下的性能。此外,BAMI通过模拟人类的认知过程,有效地解决了精度和歧义偏差问题,提高了模型的鲁棒性和泛化能力。
关键设计:粗到细的聚焦模块通过逐步缩小图像区域,例如从整个屏幕到特定区域,再到更小的元素范围,来提高定位精度。候选选择模块则通过计算候选目标与上下文的相似度,选择最有可能的目标。具体的参数设置,例如聚焦的步长、候选目标的数量等,可以通过实验进行优化。论文中没有明确提及损失函数和网络结构,因为BAMI是作用于推理阶段的,不涉及模型训练。
🖼️ 关键图片
📊 实验亮点
实验结果表明,BAMI能够显著提升现有GUI grounding模型的性能。例如,在ScreenSpot-Pro基准上,将BAMI应用于TianXi-Action-7B模型,其准确率从51.9%提升至57.8%,提升幅度达到5.9%。消融实验也证明了BAMI中粗到细聚焦和候选选择两个模块的有效性,以及BAMI在不同参数配置下的鲁棒性。
🎯 应用场景
BAMI可广泛应用于各种GUI自动化任务,例如自动化测试、RPA(机器人流程自动化)、智能助手等。通过提升GUI grounding的准确性,BAMI能够提高自动化任务的可靠性和效率,降低人工干预的需求。未来,BAMI有望应用于更复杂的交互场景,例如跨平台GUI自动化、基于视觉的机器人控制等。
📄 摘要(原文)
GUI grounding is a critical capability for enabling GUI agents to execute tasks such as clicking and dragging. However, in complex scenarios like the ScreenSpot-Pro benchmark, existing models often suffer from suboptimal performance. Utilizing the proposed \textbf{Masked Prediction Distribution (MPD)} attribution method, we identify that the primary sources of errors are twofold: high image resolution (leading to precision bias) and intricate interface elements (resulting in ambiguity bias). To address these challenges, we introduce \textbf{Bias-Aware Manipulation Inference (BAMI)}, which incorporates two key manipulations, coarse-to-fine focus and candidate selection, to effectively mitigate these biases. Our extensive experimental results demonstrate that BAMI significantly enhances the accuracy of various GUI grounding models in a training-free setting. For instance, applying our method to the TianXi-Action-7B model boosts its accuracy on the ScreenSpot-Pro benchmark from 51.9\% to 57.8\%. Furthermore, ablation studies confirm the robustness of the BAMI approach across diverse parameter configurations, highlighting its stability and effectiveness. Code is available at https://github.com/Neur-IO/BAMI.