Chain-of-Ground: Improving GUI Grounding via Iterative Reasoning and Reference Feedback

📄 arXiv: 2512.01979v1 📥 PDF

作者: Aiden Yiliu Li, Bizhi Yu, Daoan Lei, Tianhe Ren, Shilong Liu

分类: cs.AI, cs.CL, cs.CV

发布日期: 2025-12-01


💡 一句话要点

提出Chain-of-Ground框架,通过迭代推理和反馈提升GUI定位精度

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: GUI定位 多模态大语言模型 迭代推理 视觉推理 参考反馈

📋 核心要点

  1. 现有GUI定位方法在处理小目标、视觉相似目标和真实场景歧义时存在不足,限制了定位精度。
  2. Chain-of-Ground (CoG) 框架通过迭代视觉推理和细化,逐步调整假设,提升定位的准确性和可解释性。
  3. CoG在ScreenSpot Pro和TPanel UI数据集上分别提升了4.8和6.9个百分点,验证了其在数字和真实界面上的有效性。

📝 摘要(中文)

GUI定位旨在将自然语言指令与复杂用户界面中的精确区域对齐。先进的多模态大语言模型在视觉GUI定位方面表现出强大的能力,但仍然难以处理小型或视觉上相似的目标,以及真实布局中的歧义。这些限制源于有限的定位能力和对现有推理潜力的不充分利用。我们提出了Chain of Ground (CoG),一个无需训练的多步骤定位框架,它使用多模态大语言模型进行迭代视觉推理和细化。模型不是直接预测,而是逐步反思和调整其假设,从而实现更准确和可解释的定位。我们的方法在ScreenSpot Pro基准测试中实现了68.4的准确率,提高了4.8个百分点。为了衡量真实世界的泛化能力,我们引入了TPanel UI,一个包含420个带标签的工业控制面板的数据集,这些面板具有模糊和遮蔽等视觉失真。在TPanel UI上,Chain of Ground比强大的基线Qwen3 VL 235B提高了6.9个百分点,表明了多步骤免训练定位在真实世界和数字界面上的有效性。这些结果突出了通过结构化迭代细化来释放定位潜力的方向,而不是额外的训练。

🔬 方法详解

问题定义:论文旨在解决GUI定位任务中,现有方法难以精确定位小目标、视觉相似目标以及处理真实场景中存在的歧义的问题。现有方法通常依赖于单步预测,缺乏迭代推理和修正机制,导致定位精度受限。

核心思路:论文的核心思路是引入迭代推理和参考反馈机制,通过多轮次的视觉推理和假设调整,逐步逼近目标区域。模型在每一轮迭代中,都会反思当前的定位结果,并根据上下文信息进行修正,从而提高定位的准确性和鲁棒性。

技术框架:Chain-of-Ground (CoG) 框架主要包含以下几个阶段:1) 初始定位:使用多模态大语言模型对输入指令进行初步理解,并生成初始的定位假设。2) 迭代推理:模型基于当前的定位结果和上下文信息,进行视觉推理,识别潜在的错误或歧义。3) 参考反馈:模型根据推理结果,调整定位假设,并生成新的定位结果。4) 终止判断:判断是否达到预设的迭代次数或满足终止条件,如果满足则输出最终的定位结果,否则返回第2步。

关键创新:CoG的关键创新在于其迭代推理和参考反馈机制。与传统的单步预测方法不同,CoG通过多轮次的推理和修正,能够更好地处理复杂场景中的歧义和不确定性。此外,CoG是一种免训练的方法,可以直接应用于现有的多模态大语言模型,无需额外的训练数据。

关键设计:CoG框架的关键设计包括迭代次数的设置、推理策略的选择以及终止条件的判断。迭代次数决定了模型的推理深度,推理策略影响了模型的推理效率,终止条件则决定了模型的收敛速度。具体的参数设置需要根据具体的应用场景进行调整。论文中没有明确给出损失函数和网络结构的细节,因为CoG是一种免训练的方法,可以直接应用于现有的多模态大语言模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Chain-of-Ground (CoG) 框架在ScreenSpot Pro基准测试中取得了68.4%的准确率,相比现有方法提升了4.8个百分点。在更具挑战性的TPanel UI数据集上,CoG相比强大的基线Qwen3 VL 235B提升了6.9个百分点,验证了其在真实场景中的有效性。

🎯 应用场景

该研究成果可应用于自动化测试、人机交互、智能辅助等领域。例如,在自动化测试中,可以利用该方法自动定位UI元素,提高测试效率。在人机交互中,可以帮助用户更准确地定位目标区域,提升用户体验。在智能辅助中,可以辅助用户进行界面操作,降低使用门槛。

📄 摘要(原文)

GUI grounding aims to align natural language instructions with precise regions in complex user interfaces. Advanced multimodal large language models show strong ability in visual GUI grounding but still struggle with small or visually similar targets and ambiguity in real world layouts. These limitations arise from limited grounding capacity and from underuse of existing reasoning potential. We present Chain of Ground CoG a training free multi step grounding framework that uses multimodal large language models for iterative visual reasoning and refinement. Instead of direct prediction the model progressively reflects and adjusts its hypotheses leading to more accurate and interpretable localization. Our approach achieves 68.4 accuracy on the ScreenSpot Pro benchmark an improvement of 4.8 points. To measure real world generalization we introduce TPanel UI a dataset of 420 labeled industrial control panels with visual distortions such as blur and masking. On TPanel UI Chain of Ground improves over the strong baseline Qwen3 VL 235B by 6.9 points showing the effectiveness of multi step training free grounding across real world and digital interfaces. These results highlight a direction for unlocking grounding potential through structured iterative refinement instead of additional training.