MobileDev-Bench: A Comprehensive Benchmark for Evaluating Language Models on Mobile Application Development

作者: Moshood A. Fakorede, Krishna Upadhyay, A. B. Siddique, Umar Farooq

分类: cs.SE, cs.LG

发布日期: 2026-03-26

备注: 21 pages, 11 figures, 14 tables

💡 一句话要点

MobileDev-Bench：用于评估语言模型在移动应用开发中的综合基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 移动应用开发 大型语言模型 基准测试 代码修复 自动化软件工程

📋 核心要点

现有软件工程基准测试较少关注移动应用开发，忽略了其独特的平台约束和复杂API交互。
MobileDev-Bench通过收集真实移动应用问题和可执行补丁，构建了一个全面的评估基准。
实验表明，现有LLM在解决复杂移动应用问题时表现不佳，故障定位是主要瓶颈。

📝 摘要（中文）

大型语言模型（LLMs）在自动化软件工程任务中表现出强大的性能，但现有基准主要集中在通用库或Web应用程序上，而移动应用程序开发由于其严格的平台约束、框架驱动的生命周期和复杂的平台API交互而未被充分探索。我们引入了MobileDev-Bench，这是一个包含384个真实问题解决任务的基准，这些任务来自18个涵盖Android Native（Java/Kotlin）、React Native（TypeScript）和Flutter（Dart）的生产移动应用程序。每个任务将真实的开发者报告的问题与可执行的测试补丁配对，从而能够在移动构建环境中完全自动地验证模型生成的修复。该基准展示了相当大的补丁复杂性：修复平均修改12.5个文件和324.9行代码，并且35.7%的实例需要跨多个工件类型（例如，源代码和清单文件）进行协调更改。对四种最先进的具有代码能力的LLM（GPT-5.2、Claude Sonnet 4.5、Gemini Flash 2.5和Qwen3-Coder）的评估产生了3.39%-5.21%的低端到端解决率，揭示了与先前基准相比的显着性能差距。进一步的分析揭示了系统的故障模式，其中跨多文件和多工件更改的故障定位成为主要的瓶颈。

🔬 方法详解

问题定义：论文旨在解决现有大型语言模型（LLMs）在移动应用开发任务中评估不足的问题。现有基准测试主要集中在通用库或Web应用程序，忽略了移动应用开发的特殊性，例如严格的平台约束、框架驱动的生命周期以及复杂的平台API交互。这导致LLMs在移动应用开发领域的实际能力难以评估，阻碍了相关技术的发展。

核心思路：论文的核心思路是构建一个专门针对移动应用开发的综合性基准测试集，即MobileDev-Bench。该基准测试集包含来自真实移动应用程序的实际问题和对应的可执行修复补丁。通过使用这些真实数据，可以更准确地评估LLMs在解决实际移动应用开发问题时的能力。

技术框架：MobileDev-Bench的技术框架主要包括以下几个部分：1) 数据收集：从18个生产移动应用程序中收集了384个真实问题解决任务，涵盖Android Native (Java/Kotlin), React Native (TypeScript), 和 Flutter (Dart)等多种平台和技术栈。2) 数据标注：每个任务都包含开发者报告的问题描述以及对应的可执行修复补丁。3) 评估流程：使用可执行的测试补丁来自动验证模型生成的修复是否正确。4) 性能分析：分析LLMs在不同类型问题上的表现，识别主要的瓶颈和挑战。

关键创新：MobileDev-Bench的关键创新在于其真实性和全面性。它使用了来自真实生产环境的移动应用程序问题，而不是人工合成或简化的数据集。此外，它涵盖了多种移动开发平台和技术栈，能够更全面地评估LLMs在移动应用开发领域的实际能力。与现有基准测试相比，MobileDev-Bench更具代表性和挑战性。

关键设计：MobileDev-Bench的关键设计包括：1) 任务选择：选择具有代表性和挑战性的问题，确保能够充分评估LLMs的能力。2) 补丁验证：使用可执行的测试补丁来自动验证模型生成的修复，避免人工评估的主观性。3) 性能指标：使用端到端解决率作为主要的性能指标，衡量LLMs在解决整个问题流程中的能力。4) 故障分析：对LLMs的失败案例进行深入分析，识别主要的故障模式和瓶颈。

🖼️ 关键图片

📊 实验亮点

实验结果表明，现有最先进的LLM（GPT-5.2、Claude Sonnet 4.5、Gemini Flash 2.5和Qwen3-Coder）在MobileDev-Bench上的端到端解决率仅为3.39%-5.21%，远低于在其他通用基准测试上的表现。这表明现有LLM在解决复杂的移动应用开发问题时仍存在显著差距。故障分析表明，跨多文件和多工件更改的故障定位是主要的瓶颈。

🎯 应用场景

MobileDev-Bench可用于评估和比较不同LLM在移动应用开发任务中的性能，推动LLM在自动化代码修复、代码生成和移动应用维护等领域的应用。该基准测试集能够帮助研究人员更好地理解LLM在移动开发领域的优势和不足，并为开发更有效的移动应用开发工具提供指导。未来，MobileDev-Bench可以扩展到更多平台和技术栈，并集成到CI/CD流程中，实现更高效的自动化移动应用开发。

📄 摘要（原文）

Large language models (LLMs) have shown strong performance on automated software engineering tasks, yet existing benchmarks focus primarily on general-purpose libraries or web applications, leaving mobile application development largely unexplored despite its strict platform constraints, framework-driven lifecycles, and complex platform API interactions. We introduce MobileDev-Bench, a benchmark comprising 384 real-world issue-resolution tasks collected from 18 production mobile applications spanning Android Native (Java/Kotlin), React Native (TypeScript), and Flutter (Dart). Each task pairs an authentic developer-reported issue with executable test patches, enabling fully automated validation of model-generated fixes within mobile build environments. The benchmark exhibits substantial patch complexity: fixes modify 12.5 files and 324.9 lines on average, and 35.7% of instances require coordinated changes across multiple artifact types, such as source and manifest files. Evaluation of four state-of-the-art code-capable LLMs, GPT- 5.2, Claude Sonnet 4.5, Gemini Flash 2.5, and Qwen3-Coder, yields low end-to-end resolution rates of 3.39%-5.21%, revealing significant performance gaps compared to prior benchmarks. Further analysis reveals systematic failure modes, with fault localization across multi-file and multi-artifact changes emerging as the primary bottleneck.

MobileDev-Bench: A Comprehensive Benchmark for Evaluating Language Models on Mobile Application Development

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理