FineState-Bench: Benchmarking State-Conditioned Grounding for Fine-grained GUI State Setting

作者: Fengxian Ji, Jingpu Yang, Zirui Song, Yuanxi Wang, Zhexuan Cui, Yuke Li, Qian Jiang, Xiuying Chen

分类: cs.CV, cs.DB

发布日期: 2026-04-30

🔗 代码/项目: GITHUB

💡 一句话要点

FineState-Bench：用于细粒度GUI状态设置的状态条件 grounding 基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: GUI交互 视觉语言模型 状态条件 grounding 基准测试 细粒度状态设置

📋 核心要点

现有GUI交互评估缺乏细粒度，目标状态定义不精确，过度依赖最终任务成功，难以诊断智能体失败原因。
提出FineState-Bench基准，包含2209个实例，涵盖桌面、Web和移动平台，明确指定精确目标状态。
引入FineState-Metrics四阶段诊断流程和视觉诊断助手VDA，辅助分析视觉 grounding 问题，提升模型性能。

📝 摘要（中文）

大型视觉语言模型（LVLMs）取得了快速进展，但细粒度的、状态条件GUI交互仍然具有挑战性。目前的评估覆盖范围有限，目标状态定义不精确，并且过度依赖最终任务的成功，掩盖了智能体失败的原因和地点。为了解决这个差距，我们引入了 extbf{FineState-Bench}，这是一个基准，用于评估智能体是否可以正确地将指令 grounding 到预期的UI控件并达到精确的目标状态。FineState-Bench包含跨桌面、Web和移动平台的2,209个实例，涵盖四个交互系列和23种UI组件类型，每个实例都明确指定了用于细粒度状态设置的精确目标状态。我们进一步提出了 extit{FineState-Metrics}，这是一个四阶段诊断流程，具有阶段性成功率：定位成功率（SR@Loc）、交互成功率（SR@Int）、定位时的精确状态成功率（ES-SR@Loc）和交互时的精确状态成功率（ES-SR@Int），以及一个即插即用的 extit{视觉诊断助手}（VDA），它生成描述和边界框定位提示，通过受控的w/ vs. w/o比较来诊断视觉 grounding 原因。在FineState-Bench上，精确目标状态的成功率仍然很低：ES-SR@Int在Web上达到32.8％的峰值，在所有平台上平均为22.8％。借助VDA定位提示，Gemini-2.5-Flash获得了+14.9 ES-SR@Int个百分点，表明改进视觉 grounding 具有很大的提升空间，但总体准确性仍然不足以实现可靠的细粒度状态条件交互。

🔬 方法详解

问题定义：论文旨在解决大型视觉语言模型在细粒度、状态条件GUI交互中表现不佳的问题。现有评估方法的痛点在于：覆盖范围有限，无法全面评估不同平台和组件；目标状态定义不精确，难以衡量智能体是否达到了预期的状态；过度依赖最终任务的成功，忽略了中间步骤的错误，导致无法有效诊断智能体失败的原因。

核心思路：论文的核心思路是构建一个更全面、更细粒度的GUI交互基准测试集，并设计相应的评估指标和诊断工具，以便更准确地评估和诊断智能体在细粒度状态设置方面的能力。通过明确指定每个交互实例的目标状态，并提供视觉诊断助手，可以帮助研究人员更好地理解和改进智能体的视觉 grounding 能力。

技术框架：FineState-Bench基准测试集包含以下几个关键组成部分：1) 跨桌面、Web和移动平台的2209个交互实例；2) 涵盖四个交互系列和23种UI组件类型；3) 每个实例都明确指定了精确的目标状态；4) FineState-Metrics四阶段诊断流程，包括定位成功率（SR@Loc）、交互成功率（SR@Int）、定位时的精确状态成功率（ES-SR@Loc）和交互时的精确状态成功率（ES-SR@Int）；5) 视觉诊断助手（VDA），用于生成描述和边界框定位提示。

关键创新：论文的关键创新点在于：1) 提出了一个更全面、更细粒度的GUI交互基准测试集FineState-Bench，可以更准确地评估智能体在细粒度状态设置方面的能力；2) 设计了FineState-Metrics四阶段诊断流程，可以更有效地诊断智能体在不同阶段的错误；3) 提出了视觉诊断助手（VDA），可以帮助研究人员更好地理解和改进智能体的视觉 grounding 能力。与现有方法相比，FineState-Bench更加关注细粒度的状态设置，并提供了更有效的诊断工具。

关键设计：FineState-Metrics四阶段诊断流程的关键设计在于将整个交互过程分解为定位和交互两个阶段，并分别评估每个阶段的成功率。精确状态成功率（ES-SR）的引入可以更准确地衡量智能体是否达到了预期的目标状态。视觉诊断助手（VDA）的关键设计在于生成描述和边界框定位提示，可以帮助研究人员更好地理解智能体的视觉 grounding 过程，并发现潜在的问题。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有模型在FineState-Bench上的精确目标状态成功率较低，平均仅为22.8%。借助VDA定位提示，Gemini-2.5-Flash的ES-SR@Int提升了14.9个百分点，表明改进视觉 grounding 具有很大的提升空间。这突显了现有模型在细粒度GUI交互方面的不足，并为未来的研究方向提供了指导。

🎯 应用场景

该研究成果可应用于提升智能助手、自动化测试和机器人流程自动化（RPA）等领域。通过更精确地理解和操作GUI界面，可以实现更可靠、更智能的人机交互，提高工作效率，降低错误率。未来，该研究可促进开发更强大的视觉语言模型，使其能够更好地理解和操作复杂的GUI环境。

📄 摘要（原文）

Despite the rapid progress of large vision-language models (LVLMs), fine-grained, state-conditioned GUI interaction remains challenging. Current evaluations offer limited coverage, imprecise target-state definitions, and an overreliance on final-task success, obscuring where and why agents fail. To address this gap, we introduce \textbf{FineState-Bench}, a benchmark that evaluates whether an agent can correctly ground an instruction to the intended UI control and reach the exact target state. FineState-Bench comprises 2,209 instances across desktop, web, and mobile platforms, spanning four interaction families and 23 UI component types, with each instance explicitly specifying an exact target state for fine-grained state setting. We further propose \textit{FineState-Metrics}, a four-stage diagnostic pipeline with stage-wise success rates: Localization Success Rate (SR@Loc), Interaction Success Rate (SR@Int), Exact State Success Rate at Locate (ES-SR@Loc), and Exact State Success Rate at Interact (ES-SR@Int), and a plug-and-play \textit{Visual Diagnostic Assistant} (VDA) that generates a Description and a bounding-box Localization Hint to diagnose visual grounding reason via controlled w/ vs.\ w/o comparisons. On FineState-Bench, exact goal-state success remains low: ES-SR@Int peaks at 32.8\% on Web and 22.8\% on average across platforms. With VDA localization hints, Gemini-2.5-Flash gains +14.9 ES-SR@Int points, suggesting substantial headroom from improved visual grounding, yet overall accuracy is still insufficient for reliable fine-grained state-conditioned interaction \href{https://github.com/FengxianJi/FineState-Bench}{Github.}

FineState-Bench: Benchmarking State-Conditioned Grounding for Fine-grained GUI State Setting

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理