Mobile-Aptus: Confidence-Driven Proactive and Robust Interaction in MLLM-based Mobile-Using Agents
作者: Zheng Wu, Pengzhou Cheng, Zongru Wu, Yuan Guo, Tianjie Ju, Aston Zhang, Gongshen Liu, Zhuosheng Zhang
分类: cs.CL
发布日期: 2026-05-27
备注: Accepted by TASLP
🔗 代码/项目: GITHUB
💡 一句话要点
Mobile-Aptus:基于置信度的MLLM移动代理主动交互框架,提升任务成功率
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动代理 多模态大语言模型 置信度学习 人机交互 主动交互 偏差校正 移动应用自动化
📋 核心要点
- 现有移动代理易出现过度执行或过度请求人工干预的问题,影响任务完成效率和用户体验。
- Mobile-Aptus通过置信度驱动的主动交互,使代理在必要时才请求帮助,避免不必要的干预。
- 实验表明,Mobile-Aptus在多个基准测试中显著提升了任务成功率,并减少了人工干预的需求。
📝 摘要(中文)
本文提出Mobile-Aptus,一个基于置信度驱动的MLLM移动代理主动交互框架,旨在解决移动代理中的过度执行和过度请求人工干预问题。该框架包含交互能力增强和置信度偏差校正两个阶段。在交互能力增强阶段,代理通过监督微调学习输出动作和置信度分数。在置信度偏差校正阶段,代理通过结合语义相似性检索和直接偏好优化,学习输出更准确的置信度分数。实验结果表明,Mobile-Aptus在OS-Kairos、AITZ、Meta-GUI和AndroidControl四个流行的移动代理基准测试中取得了最先进的性能。在离线基准测试中,Mobile-Aptus始终优于所有基线,任务成功率平均提高了17%以上。在真实世界的动态实验中,Mobile-Aptus的任务成功率超过基线26%,而每次指令的干预步骤仅为0.64。
🔬 方法详解
问题定义:现有基于MLLM的移动代理存在过度执行和过度请求人工干预的问题。过度执行是指代理在无法解决任务时仍然尝试执行,导致失败;过度请求是指代理过于依赖人工干预,即使可以自行完成任务也请求帮助。这两种情况都降低了代理的效率和用户体验。
核心思路:Mobile-Aptus的核心思路是让代理具备评估自身完成任务能力的置信度,并根据置信度决定是否需要人工干预。通过学习更准确的置信度预测,代理可以主动地、有选择性地请求帮助,从而平衡过度执行和过度请求的问题。
技术框架:Mobile-Aptus框架包含两个主要阶段:交互能力增强和置信度偏差校正。交互能力增强阶段通过监督微调,使代理能够输出动作和置信度分数。置信度偏差校正阶段旨在提高置信度预测的准确性,通过结合语义相似性检索和直接偏好优化来实现。整体流程是,代理接收用户指令,根据当前状态和历史信息预测动作和置信度,如果置信度低于阈值,则请求人工干预,否则执行动作。
关键创新:Mobile-Aptus的关键创新在于提出了一个通用的置信度集成框架,该框架能够有效地校正MLLM在移动代理任务中的置信度偏差。通过结合语义相似性检索和直接偏好优化,Mobile-Aptus能够学习到更准确的置信度预测模型,从而实现更智能的交互策略。与现有方法相比,Mobile-Aptus不仅考虑了任务的完成,还关注了交互的效率。
关键设计:在交互能力增强阶段,使用监督学习,损失函数包括动作预测的交叉熵损失和置信度预测的均方误差损失。在置信度偏差校正阶段,语义相似性检索用于找到与当前状态相似的历史经验,并利用这些经验来调整置信度预测。直接偏好优化则通过人工反馈来进一步优化置信度预测模型。具体参数设置(如学习率、批大小、网络结构等)在论文中有详细描述,但摘要中未提及具体数值。
🖼️ 关键图片
📊 实验亮点
Mobile-Aptus在四个流行的移动代理基准测试(OS-Kairos、AITZ、Meta-GUI和AndroidControl)中取得了state-of-the-art的性能。在离线基准测试中,任务成功率平均提高了17%以上。在真实世界的动态实验中,任务成功率超过基线26%,而每次指令的干预步骤仅为0.64,表明Mobile-Aptus在提高任务成功率的同时,显著减少了人工干预的需求。
🎯 应用场景
Mobile-Aptus可应用于各种需要人机协作的移动应用场景,例如智能家居控制、移动办公助手、自动化测试等。通过提高代理的自主性和交互效率,可以显著提升用户体验,并降低人工干预的成本。该研究为开发更智能、更可靠的移动代理提供了新的思路。
📄 摘要(原文)
Recent advancements in multimodal large language models (MLLMs) have shown exceptional potential in enabling mobile-using agents to autonomously execute human instructions. However, fully automated agents often try to execute tasks even when they are unable to resolve them, leading to the problem of over-execution. Previous studies solve it by training a interactive mobile-using agents to let agents request human interaction when agents can not complete user instructions. However, we find that these interactive agents tend to exhibit over-soliciting behavior, relying excessively on human intervention. To mitigate both over-execution and over-soliciting, we propose a universal confidence integration framework that enables confidence-driven proactive and robust interaction in MLLM-based mobile-using agents. The framework consists of two stages: interaction capability empowerment and confidence bias correction. In the interaction capability empowerment stage, agents learn through supervised fine-tuning to output both actions and confidence scores. In the confidence bias correction stage, agents learn to output more accurate confidence scores by combining semantic similarity retrieval with direct preference optimization. Experimental results show Mobile-Aptus achieves state-of-the-art performance on the four popular mobile-using agent benchmarks: OS-Kairos, AITZ, Meta-GUI, and AndroidControl. Mobile-Aptus consistently outperforms all baselines in offline benchmarks, with an average improvement over 17\% in task success rate. In real-world dynamic experiments, Mobile-Aptus surpasses the baseline by 26% in task success rate with only 0.64 intervention steps per instruction. The codes are available at https://github.com/Wuzheng02/Mobile-Aptus.