ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices
作者: Dezhi Kong, Zhengzhao Feng, Qiliang Liang, Hao Wang, Haofei Sun, Changpeng Yang, Yang Li, Peng Zhou, Shuai Nie, Hongzhen Wang, Linfeng Zhou, Hao Jia, Jiaming Xu, Runyu Shi, Ying Huang
分类: cs.AI
发布日期: 2026-02-28
💡 一句话要点
ProactiveMobile:一个全面的移动设备主动智能基准测试,旨在提升移动设备的主动智能水平。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动智能 移动代理 多模态学习 基准测试 情境感知 大型语言模型 用户意图理解
📋 核心要点
- 现有移动代理主要采用被动模式,仅执行用户明确指令,缺乏主动预测和执行能力。
- ProactiveMobile基准通过模拟真实场景,评估模型基于设备上下文推断用户意图并执行相应操作的能力。
- 实验表明,现有MLLM在主动性方面表现不足,但通过微调Qwen2.5-VL-7B-Instruct模型,成功率显著提升,验证了主动性可学习。
📝 摘要(中文)
多模态大型语言模型(MLLMs)在移动代理开发方面取得了显著进展,但它们的能力主要局限于被动模式,即仅仅执行明确的用户命令。主动智能的新兴范式,即代理自主地预测需求并启动行动,代表了移动代理的下一个前沿。然而,其发展受到缺乏能够解决真实世界复杂性并实现客观、可执行评估的基准的严重阻碍。为了克服这些挑战,我们引入了ProactiveMobile,这是一个全面的基准,旨在系统地推进该领域的研究。ProactiveMobile将主动任务形式化为推断跨设备上下文信号四个维度的潜在用户意图,并从包含63个API的全面函数池中生成可执行的函数序列。该基准包含超过3660个实例的14个场景,通过多答案注释来体现真实世界的复杂性。为了确保质量,一个由30名专家组成的团队对基准进行了最终审核,验证了事实准确性、逻辑一致性和行动可行性,并纠正了任何不合规的条目。大量实验表明,我们微调的Qwen2.5-VL-7B-Instruct的成功率达到了19.15%,优于o1(15.71%)和GPT-5(7.39%)。这一结果表明,主动性是当前MLLM普遍缺乏的关键能力,但它是可以学习的,强调了所提出的主动性评估基准的重要性。
🔬 方法详解
问题定义:现有移动代理主要依赖于用户显式指令,无法主动感知用户需求并采取行动。这限制了移动代理的智能化水平和用户体验。现有方法缺乏在真实世界复杂场景下评估和提升移动代理主动智能的有效基准。
核心思路:ProactiveMobile的核心思路是构建一个包含丰富场景和多维度上下文信息的基准测试,用于评估模型根据用户潜在意图自主执行任务的能力。通过提供可执行的函数序列,该基准能够客观地评估模型的主动性。
技术框架:ProactiveMobile基准包含以下主要组成部分:1) 场景定义:设计14个真实世界的移动应用场景。2) 数据收集:收集3660个实例,每个实例包含多维度上下文信息(如时间、位置、应用状态等)和多答案注释。3) 函数池:提供63个API函数,用于执行各种移动设备操作。4) 评估指标:使用成功率来评估模型生成可执行函数序列的准确性。
关键创新:ProactiveMobile的关键创新在于其全面性和真实性。它不仅考虑了多维度的上下文信息,还提供了可执行的函数序列,从而能够更准确地评估模型的主动智能水平。此外,该基准还经过了专家团队的严格审核,确保了数据的质量和可靠性。
关键设计:ProactiveMobile的关键设计包括:1) 多答案注释:每个实例包含多个可能的正确答案,以反映真实世界的多样性。2) 函数池设计:函数池包含各种常用的移动设备API,覆盖了广泛的应用场景。3) 专家审核:由30名专家组成的团队对基准进行审核,确保数据的准确性和一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过微调的Qwen2.5-VL-7B-Instruct模型在ProactiveMobile基准上取得了19.15%的成功率,显著优于o1(15.71%)和GPT-5(7.39%)。这表明,通过合适的训练方法,可以有效提升MLLM在主动智能方面的能力。该结果强调了ProactiveMobile基准在主动性评估方面的重要价值。
🎯 应用场景
ProactiveMobile基准的潜在应用领域包括智能助手、自动化测试、情境感知计算等。通过提升移动设备的主动智能,可以显著改善用户体验,例如,设备可以根据用户的位置和日程安排自动设置闹钟或提醒。该研究的未来影响在于推动移动代理向更智能、更自主的方向发展。
📄 摘要(原文)
Multimodal large language models (MLLMs) have made significant progress in mobile agent development, yet their capabilities are predominantly confined to a reactive paradigm, where they merely execute explicit user commands. The emerging paradigm of proactive intelligence, where agents autonomously anticipate needs and initiate actions, represents the next frontier for mobile agents. However, its development is critically bottlenecked by the lack of benchmarks that can address real-world complexity and enable objective, executable evaluation. To overcome these challenges, we introduce ProactiveMobile, a comprehensive benchmark designed to systematically advance research in this domain. ProactiveMobile formalizes the proactive task as inferring latent user intent across four dimensions of on-device contextual signals and generating an executable function sequence from a comprehensive function pool of 63 APIs. The benchmark features over 3,660 instances of 14 scenarios that embrace real-world complexity through multi-answer annotations. To ensure quality, a team of 30 experts conducts a final audit of the benchmark, verifying factual accuracy, logical consistency, and action feasibility, and correcting any non-compliant entries. Extensive experiments demonstrate that our fine-tuned Qwen2.5-VL-7B-Instruct achieves a success rate of 19.15%, outperforming o1 (15.71%) and GPT-5 (7.39%). This result indicates that proactivity is a critical competency widely lacking in current MLLMs, yet it is learnable, emphasizing the importance of the proposed benchmark for proactivity evaluation.