Blind Gods and Broken Screens: Architecting a Secure, Intent-Centric Mobile Agent Operating System
作者: Zhenhua Zou, Sheng Guo, Qiuyang Zhan, Lepeng Zhao, Shuo Li, Qi Li, Ke Xu, Mingwei Xu, Zhuotao Liu
分类: cs.CR, cs.AI
发布日期: 2026-02-11
备注: 35 pages, 15 figures
💡 一句话要点
提出Aura:一种面向意图的安全移动Agent操作系统架构,解决现有“屏幕即接口”模式的安全漏洞。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 移动Agent 操作系统安全 意图驱动 安全架构 运行时环境
📋 核心要点
- 现有移动Agent依赖“屏幕即接口”范式,存在身份伪造、视觉欺骗等安全漏洞,威胁用户隐私和系统安全。
- Aura采用Hub-and-Spoke架构,通过系统Agent协调意图,沙盒App Agent执行任务,Agent内核进行安全调解。
- 实验表明,Aura显著提升了任务成功率,降低了攻击成功率,并降低了延迟,验证了其安全性和有效性。
📝 摘要(中文)
大型语言模型(LLM)的演进已将移动计算从以App为中心的交互转变为系统级的自主Agent。当前的实现主要依赖于“屏幕即接口”的范式,这继承了结构性漏洞并与移动生态系统的经济基础相冲突。本文以豆包移动助手为例,对最先进的移动Agent进行了系统的安全分析,将威胁划分为Agent身份、外部接口、内部推理和行动执行四个维度,揭示了诸如虚假App身份、视觉欺骗、间接提示注入以及源于对非结构化视觉数据依赖的未经授权的权限提升等关键缺陷。为了应对这些挑战,我们提出了Aura,一种Agent通用运行时架构,用于构建全新的安全Agent操作系统。Aura用结构化的、Agent原生的交互模型取代了脆弱的GUI抓取。它采用Hub-and-Spoke拓扑,其中特权系统Agent协调意图,沙盒App Agent执行特定领域的任务,Agent内核调解所有通信。Agent内核强制执行四个防御支柱:(i)通过全局Agent注册表进行加密身份绑定;(ii)通过多层语义防火墙进行语义输入清理;(iii)通过具有污点感知的内存和计划轨迹对齐来实现认知完整性;(iv)通过不可否认的审计实现细粒度的访问控制。在MobileSafetyBench上的评估表明,与豆包相比,Aura将低风险任务成功率从大约75%提高到94.3%,将高风险攻击成功率从大约40%降低到4.4%,并实现了近一个数量级的延迟增益。这些结果表明,Aura是“屏幕即接口”范式的可行且安全的替代方案。
🔬 方法详解
问题定义:现有移动Agent主要采用“屏幕即接口”的范式,通过解析屏幕上的视觉信息来理解用户意图并执行操作。这种方法存在诸多安全隐患,例如容易受到视觉欺骗、提示注入攻击,并且难以进行细粒度的权限控制。现有的安全机制难以有效防御这些新型攻击,严重威胁用户隐私和系统安全。
核心思路:Aura的核心思路是摒弃“屏幕即接口”的范式,转而采用一种结构化的、Agent原生的交互模型。它将Agent系统划分为多个相互隔离的模块,并通过一个可信的Agent内核来协调它们之间的通信。这种设计可以有效地隔离潜在的攻击面,并提供细粒度的权限控制。
技术框架:Aura采用Hub-and-Spoke的拓扑结构。其中,System Agent作为Hub,负责协调用户意图和任务分配;App Agents作为Spokes,负责执行特定领域的任务。Agent Kernel负责调解System Agent和App Agents之间的通信,并强制执行安全策略。整个框架包含以下主要模块:Global Agent Registry(用于Agent身份管理)、Semantic Firewall(用于语义输入清理)、Taint-aware Memory(用于认知完整性保护)和Auditing Mechanism(用于访问控制和审计)。
关键创新:Aura最重要的创新在于其Agent原生的交互模型和安全架构。它不再依赖于脆弱的GUI抓取,而是通过结构化的消息传递来实现Agent之间的通信。此外,Aura还引入了多层防御机制,包括身份绑定、语义清理、认知完整性保护和细粒度的访问控制,从而构建了一个更加安全可靠的Agent操作系统。
关键设计:Aura的关键设计包括:(1) Global Agent Registry使用密码学方法绑定Agent身份,防止身份伪造。(2) Semantic Firewall采用多层过滤机制,对输入进行语义分析和清理,防止提示注入攻击。(3) Taint-aware Memory跟踪数据的来源和传播路径,防止恶意代码篡改关键数据。(4) Auditing Mechanism记录所有Agent的活动,提供不可否认的审计日志。
🖼️ 关键图片
📊 实验亮点
在MobileSafetyBench上的评估结果显示,Aura相比于Doubao Mobile Assistant,将低风险任务成功率从约75%提升至94.3%,高风险攻击成功率从约40%降低至4.4%,并且实现了近一个数量级的延迟降低。这些数据表明,Aura在安全性、可靠性和性能方面均优于现有的“屏幕即接口”范式。
🎯 应用场景
Aura架构可应用于各种移动Agent应用场景,例如智能助手、自动化任务执行、安全支付等。它能够提升移动Agent的安全性、可靠性和用户体验,并为构建更加智能、安全的移动生态系统奠定基础。未来,Aura有望成为下一代移动操作系统的核心组成部分。
📄 摘要(原文)
The evolution of Large Language Models (LLMs) has shifted mobile computing from App-centric interactions to system-level autonomous agents. Current implementations predominantly rely on a "Screen-as-Interface" paradigm, which inherits structural vulnerabilities and conflicts with the mobile ecosystem's economic foundations. In this paper, we conduct a systematic security analysis of state-of-the-art mobile agents using Doubao Mobile Assistant as a representative case. We decompose the threat landscape into four dimensions - Agent Identity, External Interface, Internal Reasoning, and Action Execution - revealing critical flaws such as fake App identity, visual spoofing, indirect prompt injection, and unauthorized privilege escalation stemming from a reliance on unstructured visual data. To address these challenges, we propose Aura, an Agent Universal Runtime Architecture for a clean-slate secure agent OS. Aura replaces brittle GUI scraping with a structured, agent-native interaction model. It adopts a Hub-and-Spoke topology where a privileged System Agent orchestrates intent, sandboxed App Agents execute domain-specific tasks, and the Agent Kernel mediates all communication. The Agent Kernel enforces four defense pillars: (i) cryptographic identity binding via a Global Agent Registry; (ii) semantic input sanitization through a multilayer Semantic Firewall; (iii) cognitive integrity via taint-aware memory and plan-trajectory alignment; and (iv) granular access control with non-deniable auditing. Evaluation on MobileSafetyBench shows that, compared to Doubao, Aura improves low-risk Task Success Rate from roughly 75% to 94.3%, reduces high-risk Attack Success Rate from roughly 40% to 4.4%, and achieves near-order-of-magnitude latency gains. These results demonstrate Aura as a viable, secure alternative to the "Screen-as-Interface" paradigm.