BAMI: Training-Free Bias Mitigation in GUI Grounding

作者: Borui Zhang, Bo Zhang, Bo Wang, Wenzhao Zheng, Yuhao Cheng, Liang Tang, Yiqiang Yan, Jie Zhou, Jiwen Lu

分类: cs.CV, cs.AI

发布日期: 2026-05-07

备注: Accepted by CVPR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出BAMI，通过无训练方式缓解GUI grounding中的偏差问题

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: GUI grounding 偏差缓解 无训练方法 自动化测试 机器人流程自动化

📋 核心要点

现有GUI grounding模型在高分辨率和复杂界面元素下存在精度和歧义偏差，导致性能下降。
BAMI通过粗到细的聚焦和候选选择，在不进行额外训练的情况下，缓解了GUI grounding中的偏差。
实验表明，BAMI能显著提升现有模型的准确率，例如在ScreenSpot-Pro上将TianXi-Action-7B的准确率提升至57.8%。

📝 摘要（中文）

GUI grounding是GUI agent执行点击、拖拽等任务的关键能力。然而，在ScreenSpot-Pro等复杂场景中，现有模型性能欠佳。通过提出的Masked Prediction Distribution (MPD)归因方法，我们发现误差的主要来源是：高图像分辨率（导致精度偏差）和复杂的界面元素（导致歧义偏差）。为了解决这些挑战，我们引入了Bias-Aware Manipulation Inference (BAMI)，它包含粗到细的聚焦和候选选择两种关键操作，以有效缓解这些偏差。大量实验结果表明，BAMI显著提高了各种GUI grounding模型在无训练设置下的准确性。例如，将我们的方法应用于TianXi-Action-7B模型，其在ScreenSpot-Pro基准上的准确率从51.9%提高到57.8%。此外，消融研究证实了BAMI方法在不同参数配置下的鲁棒性，突显了其稳定性和有效性。

🔬 方法详解

问题定义：论文旨在解决GUI grounding任务中，由于高分辨率图像和复杂界面元素导致的精度偏差和歧义偏差问题。现有方法在处理此类问题时，往往难以兼顾精度和鲁棒性，导致性能瓶颈。尤其是在ScreenSpot-Pro这样的复杂benchmark上，现有模型的表现与实际应用需求存在差距。

核心思路：论文的核心思路是通过引入Bias-Aware Manipulation Inference (BAMI)，在推理阶段对模型预测进行修正，而无需重新训练模型。BAMI的核心在于模拟人类在复杂GUI界面中寻找目标元素时的策略，即先关注整体，再逐步聚焦到细节，并对可能的候选目标进行选择和验证。

技术框架：BAMI主要包含两个阶段：粗到细的聚焦（Coarse-to-Fine Focus）和候选选择（Candidate Selection）。首先，粗到细的聚焦通过逐步缩小搜索范围，降低高分辨率带来的精度偏差。然后，候选选择模块对多个可能的候选目标进行评估，缓解复杂界面元素带来的歧义偏差。整个过程在推理阶段进行，无需修改或重新训练原有的GUI grounding模型。

关键创新：BAMI的关键创新在于其训练无关性（training-free）。与需要大量数据进行重新训练的方法不同，BAMI可以直接应用于现有的GUI grounding模型，提升其在复杂场景下的性能。此外，BAMI通过模拟人类的认知过程，有效地解决了精度和歧义偏差问题，提高了模型的鲁棒性和泛化能力。

关键设计：粗到细的聚焦模块通过逐步缩小图像区域，例如从整个屏幕到特定区域，再到更小的元素范围，来提高定位精度。候选选择模块则通过计算候选目标与上下文的相似度，选择最有可能的目标。具体的参数设置，例如聚焦的步长、候选目标的数量等，可以通过实验进行优化。论文中没有明确提及损失函数和网络结构，因为BAMI是作用于推理阶段的，不涉及模型训练。

🖼️ 关键图片

📊 实验亮点

实验结果表明，BAMI能够显著提升现有GUI grounding模型的性能。例如，在ScreenSpot-Pro基准上，将BAMI应用于TianXi-Action-7B模型，其准确率从51.9%提升至57.8%，提升幅度达到5.9%。消融实验也证明了BAMI中粗到细聚焦和候选选择两个模块的有效性，以及BAMI在不同参数配置下的鲁棒性。

🎯 应用场景

BAMI可广泛应用于各种GUI自动化任务，例如自动化测试、RPA（机器人流程自动化）、智能助手等。通过提升GUI grounding的准确性，BAMI能够提高自动化任务的可靠性和效率，降低人工干预的需求。未来，BAMI有望应用于更复杂的交互场景，例如跨平台GUI自动化、基于视觉的机器人控制等。

📄 摘要（原文）

GUI grounding is a critical capability for enabling GUI agents to execute tasks such as clicking and dragging. However, in complex scenarios like the ScreenSpot-Pro benchmark, existing models often suffer from suboptimal performance. Utilizing the proposed \textbf{Masked Prediction Distribution (MPD)} attribution method, we identify that the primary sources of errors are twofold: high image resolution (leading to precision bias) and intricate interface elements (resulting in ambiguity bias). To address these challenges, we introduce \textbf{Bias-Aware Manipulation Inference (BAMI)}, which incorporates two key manipulations, coarse-to-fine focus and candidate selection, to effectively mitigate these biases. Our extensive experimental results demonstrate that BAMI significantly enhances the accuracy of various GUI grounding models in a training-free setting. For instance, applying our method to the TianXi-Action-7B model boosts its accuracy on the ScreenSpot-Pro benchmark from 51.9\% to 57.8\%. Furthermore, ablation studies confirm the robustness of the BAMI approach across diverse parameter configurations, highlighting its stability and effectiveness. Code is available at https://github.com/Neur-IO/BAMI.

BAMI: Training-Free Bias Mitigation in GUI Grounding

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理