OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents

作者: Pengzhou Cheng, Zheng Wu, Zongru Wu, Aston Zhang, Zhuosheng Zhang, Gongshen Liu

分类: cs.HC, cs.AI

发布日期: 2025-02-26 (更新: 2025-07-14)

备注: 25 pages, 24 figures, 11 tables (ACL 2025, Findings)

🔗 代码/项目: GITHUB

💡 一句话要点

提出OS-Kairos以解决自主GUI代理过度执行问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自主代理 图形用户界面 多模态大语言模型 人机协作 信心评估 任务成功率 适应性交互

📋 核心要点

现有的自主GUI代理在复杂场景中容易出现过度执行的问题，缺乏对行动信心的评估，导致人机协作的适应性不足。
OS-Kairos通过协作探测和信心驱动交互机制，能够在每个交互步骤评估信心水平，从而决定是否自主执行任务或请求人类干预。
实验结果显示，OS-Kairos在复杂场景下的任务成功率较现有模型提高了24.59%至87.29%，有效提升了人机协作的效率和可靠性。

📝 摘要（中文）

自主图形用户界面（GUI）代理由多模态大语言模型驱动，展现出良好的前景。然而，过度执行的问题仍未得到充分探讨，即代理在没有充分评估其行动信心的情况下完全自主执行任务，这在复杂场景中（如模糊用户指令、意外中断和环境劫持）带来了重大风险。为了解决这一问题，本文提出了OS-Kairos，一个能够在每个交互步骤预测信心水平并有效决定是否自主行动或寻求人工干预的自适应GUI代理。OS-Kairos通过两个关键机制开发：协作探测和信心驱动交互。实验结果表明，OS-Kairos在复杂场景的自定义数据集以及AITZ和Meta-GUI等基准测试上显著优于现有模型，任务成功率提高了24.59%至87.29%。

🔬 方法详解

问题定义：本文旨在解决自主GUI代理在复杂场景中因缺乏信心评估而导致的过度执行问题。现有方法在处理模糊指令和意外中断时，往往无法有效判断何时需要人类干预，增加了风险。

核心思路：OS-Kairos的核心思路是通过实时评估信心水平，来决定代理是否应当自主执行任务或请求人类的帮助。这种设计旨在增强人机协作的适应性和安全性。

技术框架：OS-Kairos的整体架构包括两个主要模块：协作探测模块用于在每个交互步骤生成信心评分，信心驱动交互模块则利用这些评分来指导代理的行动决策。

关键创新：OS-Kairos的最大创新在于其信心评分机制，能够在每个交互步骤动态评估代理的信心水平，这与现有方法的静态决策机制形成了鲜明对比。

关键设计：在设计中，OS-Kairos采用了特定的损失函数来优化信心评分的准确性，并结合了深度学习网络结构，以提高模型的泛化能力和效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，OS-Kairos在复杂场景下的任务成功率相比现有模型提升了24.59%至87.29%。在AITZ和Meta-GUI等基准测试中，OS-Kairos也表现出显著的优势，验证了其在实际应用中的有效性和可靠性。

🎯 应用场景

OS-Kairos的研究成果在多个领域具有潜在应用价值，尤其是在需要人机协作的复杂系统中，如智能家居、自动驾驶和医疗辅助等场景。通过提升代理的适应性和决策能力，能够有效减少误操作风险，提高用户体验和系统效率。

📄 摘要（原文）

Autonomous graphical user interface (GUI) agents powered by multimodal large language models have shown great promise. However, a critical yet underexplored issue persists: over-execution, where the agent executes tasks in a fully autonomous way, without adequate assessment of its action confidence to compromise an adaptive human-agent collaboration. This poses substantial risks in complex scenarios, such as those involving ambiguous user instructions, unexpected interruptions, and environmental hijacks. To address the issue, we introduce OS-Kairos, an adaptive GUI agent capable of predicting confidence levels at each interaction step and efficiently deciding whether to act autonomously or seek human intervention. OS-Kairos is developed through two key mechanisms: (i) collaborative probing that annotates confidence scores at each interaction step; (ii) confidence-driven interaction that leverages these confidence scores to elicit the ability of adaptive interaction. Experimental results show that OS-Kairos substantially outperforms existing models on our curated dataset featuring complex scenarios, as well as on established benchmarks such as AITZ and Meta-GUI, with 24.59\%$\sim$87.29\% improvements in task success rate. OS-Kairos facilitates an adaptive human-agent collaboration, prioritizing effectiveness, generality, scalability, and efficiency for real-world GUI interaction. The dataset and codes are available at https://github.com/Wuzheng02/OS-Kairos.

OS-Kairos: Adaptive Interaction for MLLM-Powered GUI Agents

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理