ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices
作者: Dezhi Kong, Zhengzhao Feng, Qiliang Liang, Hao Wang, Haofei Sun, Changpeng Yang, Yang Li, Peng Zhou, Shuai Nie, Hongzhen Wang, Linfeng Zhou, Hao Jia, Jiaming Xu, Runyu Shi, Ying Huang
分类: cs.AI
发布日期: 2026-02-25
💡 一句话要点
ProactiveMobile:用于提升移动设备主动智能的综合基准测试
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主动智能 移动代理 多模态大语言模型 基准测试 情境感知
📋 核心要点
- 现有移动代理主要依赖被动执行用户指令,缺乏主动预测用户需求并采取行动的能力。
- ProactiveMobile基准测试通过模拟真实场景,评估模型基于设备上下文信号推断用户意图并生成可执行API序列的能力。
- 实验结果表明,现有MLLM在主动性方面表现不足,但通过微调Qwen2.5-VL-7B-Instruct模型,成功率显著提升,验证了主动性是可学习的。
📝 摘要(中文)
多模态大型语言模型(MLLM)在移动代理开发方面取得了显著进展,但它们的能力主要局限于被动模式,即仅仅执行明确的用户命令。主动智能的新兴范式,即代理自主地预测需求并启动行动,代表了移动代理的下一个前沿。然而,其发展受到基准测试的严重瓶颈,这些基准测试能够解决现实世界的复杂性并实现客观、可执行的评估。为了克服这些挑战,我们引入了ProactiveMobile,这是一个综合基准,旨在系统地推进该领域的研究。ProactiveMobile将主动任务形式化为推断跨设备上下文信号四个维度的潜在用户意图,并从包含63个API的综合函数池中生成可执行的函数序列。该基准测试包含超过3660个实例的14个场景,通过多答案注释体现了现实世界的复杂性。为了确保质量,一个由30名专家组成的团队对基准测试进行了最终审核,验证了事实准确性、逻辑一致性和行动可行性,并纠正了任何不合规的条目。大量实验表明,我们微调的Qwen2.5-VL-7B-Instruct的成功率达到了19.15%,优于o1(15.71%)和GPT-5(7.39%)。这一结果表明,主动性是当前MLLM普遍缺乏的关键能力,但它是可以学习的,强调了所提出的主动性评估基准的重要性。
🔬 方法详解
问题定义:现有移动代理主要处于被动响应状态,无法主动感知用户需求并采取相应行动。缺乏一个能够全面评估和提升移动设备主动智能的基准测试,阻碍了相关研究的进展。现有方法难以应对真实世界场景的复杂性,缺乏客观、可执行的评估标准。
核心思路:ProactiveMobile的核心思路是构建一个综合性的基准测试,模拟真实世界的使用场景,通过多维度的设备上下文信号来推断用户的潜在意图,并生成可执行的API序列。该基准测试旨在提供一个客观、可执行的评估平台,促进移动设备主动智能的研究和发展。
技术框架:ProactiveMobile基准测试包含以下主要模块:1) 场景定义:定义14个真实世界的移动设备使用场景。2) 数据收集与标注:收集并标注超过3660个实例,每个实例包含设备上下文信号(如时间、地点、应用使用情况等)和对应的用户意图。3) API函数池:构建包含63个API的函数池,用于生成可执行的API序列。4) 评估指标:定义成功率等评估指标,用于衡量模型的主动智能水平。5) 专家审核:由30名专家对基准测试进行审核,确保数据质量和标注准确性。
关键创新:ProactiveMobile的关键创新在于:1) 综合性:涵盖了多个真实世界的移动设备使用场景,并考虑了多维度的设备上下文信号。2) 可执行性:通过API函数池生成可执行的API序列,实现了客观的评估。3) 高质量:通过专家审核确保了数据质量和标注准确性。与现有方法相比,ProactiveMobile更贴近真实应用场景,能够更全面地评估和提升移动设备的主动智能。
关键设计:ProactiveMobile的关键设计包括:1) 多答案标注:每个实例包含多个可能的API序列,以应对真实世界场景的多样性。2) API函数池的设计:API函数池包含了常用的移动设备功能,能够覆盖大部分使用场景。3) 评估指标的设计:成功率等评估指标能够有效衡量模型的主动智能水平。4) 专家审核流程:通过严格的专家审核流程,确保了数据质量和标注准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过微调的Qwen2.5-VL-7B-Instruct模型在ProactiveMobile基准测试上的成功率达到了19.15%,显著优于o1(15.71%)和GPT-5(7.39%)。这表明,现有MLLM在主动性方面存在较大提升空间,而ProactiveMobile基准测试能够有效评估和促进相关研究。
🎯 应用场景
ProactiveMobile的研究成果可应用于智能助手、自动化任务处理、情境感知应用等领域。通过提升移动设备的主动智能,可以实现更便捷、高效的用户体验,例如,设备可以根据用户的位置和日程安排,自动提醒会议或预定餐厅。未来,该研究有望推动移动设备在智能化和个性化服务方面取得更大的突破。
📄 摘要(原文)
Multimodal large language models (MLLMs) have made significant progress in mobile agent development, yet their capabilities are predominantly confined to a reactive paradigm, where they merely execute explicit user commands. The emerging paradigm of proactive intelligence, where agents autonomously anticipate needs and initiate actions, represents the next frontier for mobile agents. However, its development is critically bottlenecked by the lack of benchmarks that can address real-world complexity and enable objective, executable evaluation. To overcome these challenges, we introduce ProactiveMobile, a comprehensive benchmark designed to systematically advance research in this domain. ProactiveMobile formalizes the proactive task as inferring latent user intent across four dimensions of on-device contextual signals and generating an executable function sequence from a comprehensive function pool of 63 APIs. The benchmark features over 3,660 instances of 14 scenarios that embrace real-world complexity through multi-answer annotations. To ensure quality, a team of 30 experts conducts a final audit of the benchmark, verifying factual accuracy, logical consistency, and action feasibility, and correcting any non-compliant entries. Extensive experiments demonstrate that our fine-tuned Qwen2.5-VL-7B-Instruct achieves a success rate of 19.15%, outperforming o1 (15.71%) and GPT-5 (7.39%). This result indicates that proactivity is a critical competency widely lacking in current MLLMs, yet it is learnable, emphasizing the importance of the proposed benchmark for proactivity evaluation.