Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots

📄 arXiv: 2604.17817v1 📥 PDF

作者: Shiquan Zhang, Tianyi Zhang, Le Fang, Simon D'Alfonso, Hong Jia, Vassilis Kostakos

分类: cs.HC, cs.AI, cs.MA

发布日期: 2026-04-20

备注: 29 pages. This study was conducted around May, 2025


💡 一句话要点

DailyDroid:针对LLM驱动的智能手机自动化,对比文本与截图输入,揭示其失效模式

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 智能手机自动化 移动代理 基准测试 多模态学习

📋 核心要点

  1. 现有基于LLM的手机自动化代理准确率低,缺乏对其失效原因的深入分析。
  2. 提出DailyDroid基准测试,包含日常任务,对比文本和多模态输入对LLM性能的影响。
  3. 实验表明多模态输入仅略微提升性能,并深入分析了UI可访问性等关键失效因素。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,移动代理已成为有前景的手机自动化工具,它们通过模拟屏幕上的人工交互来完成复杂任务。然而,这些代理通常面临准确率低、误解用户指令以及在具有挑战性的任务上失败等问题,但鲜有研究探讨其失败的原因和具体环节。为了解决这个问题,我们推出了DailyDroid,这是一个包含75个任务的基准测试,涵盖25个Android应用程序中的五个场景,并跨越三个难度级别,旨在模拟日常智能手机使用。我们使用GPT-4o和o4-mini,分别采用纯文本和多模态(文本+截图)输入,进行了300次试验评估,结果表明,多模态输入的性能与纯文本输入相当,仅略微提高了成功率。通过深入的失败分析,我们整理了一份常见失败的手册。我们的发现揭示了UI可访问性、输入模态以及LLM/应用程序设计中的关键问题,为未来的移动代理、应用程序和UI开发提供了启示。

🔬 方法详解

问题定义:论文旨在解决LLM驱动的智能手机自动化代理在实际应用中准确率低的问题。现有方法缺乏对LLM失效原因的系统性分析,难以有效提升自动化性能。现有方法通常依赖单一的输入模态(如纯文本或纯视觉),可能无法充分利用屏幕信息,导致任务失败。

核心思路:论文的核心思路是通过构建一个贴近日常使用的基准测试集,系统性地评估不同输入模态(纯文本 vs. 文本+截图)下LLM的性能,并深入分析LLM在不同任务上的失效模式,从而为未来的移动代理设计提供指导。

技术框架:论文构建了名为DailyDroid的基准测试,包含五个场景下的75个任务,涵盖25个Android应用。研究人员使用GPT-4o和o4-mini两种LLM,分别采用纯文本和多模态(文本+截图)输入进行测试。通过对300次试验结果的分析,总结出常见失效模式,并提出了改进建议。

关键创新:论文的关键创新在于构建了一个更贴近真实用户使用场景的基准测试集DailyDroid,并系统性地对比了纯文本和多模态输入对LLM性能的影响。此外,论文还深入分析了LLM在不同任务上的失效模式,为未来的移动代理设计提供了更具针对性的指导。

关键设计:DailyDroid基准测试的任务设计考虑了日常使用的多样性,涵盖了不同难度级别。研究人员仔细分析了LLM在不同任务上的失败案例,并将其归纳为UI可访问性、输入模态、LLM设计和应用设计等几个方面的问题。具体参数设置和损失函数等技术细节未在摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在DailyDroid基准测试中,多模态输入(文本+截图)相对于纯文本输入,仅略微提高了LLM的成功率。通过深入的失败分析,研究人员总结出了一系列常见失效模式,包括UI可访问性问题、输入模态选择不当等,为未来的移动代理设计提供了重要的参考。

🎯 应用场景

该研究成果可应用于提升智能手机自动化代理的性能和可靠性,例如自动完成日常任务、辅助残障人士使用手机等。研究结果对未来的移动代理、应用程序和UI开发具有指导意义,有助于设计更易于LLM理解和操作的界面,从而提升用户体验。

📄 摘要(原文)

With the rapid advancement of large language models (LLMs), mobile agents have emerged as promising tools for phone automation, simulating human interactions on screens to accomplish complex tasks. However, these agents often suffer from low accuracy, misinterpretation of user instructions, and failure on challenging tasks, with limited prior work examining why and where they fail. To address this, we introduce DailyDroid, a benchmark of 75 tasks in five scenarios across 25 Android apps, spanning three difficulty levels to mimic everyday smartphone use. We evaluate it using text-only and multimodal (text + screenshot) inputs on GPT-4o and o4-mini across 300 trials, revealing comparable performance with multimodal inputs yielding marginally higher success rates. Through in-depth failure analysis, we compile a handbook of common failures. Our findings reveal critical issues in UI accessibility, input modalities, and LLM/app design, offering implications for future mobile agents, applications, and UI development.