Anonymization-Enhanced Privacy Protection for Mobile GUI Agents: Available but Invisible

📄 arXiv: 2602.10139v2 📥 PDF

作者: Lepeng Zhao, Zhenhua Zou, Shuo Li, Zhuotao Liu

分类: cs.CR, cs.AI

发布日期: 2026-02-08 (更新: 2026-02-14)

备注: 15 pages, 4 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出一种基于匿名化的移动GUI代理隐私保护框架,实现可用但不可见的敏感数据访问。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 隐私保护 GUI代理 匿名化 多模态大语言模型 移动安全

📋 核心要点

  1. 现有移动GUI代理存在隐私泄露风险,会暴露用户的敏感个人数据。
  2. 提出基于匿名化的隐私保护框架,确保敏感数据可用但对云端代理不可见。
  3. 实验表明,该框架在降低隐私泄露的同时,保持了较好的任务效用。

📝 摘要(中文)

移动图形用户界面(GUI)代理通过利用多模态大型语言模型(MLLM)和系统级控制接口,在自动化复杂的智能手机任务方面表现出强大的能力。然而,这种模式引入了显著的隐私风险,因为代理通常捕获和处理整个屏幕内容,从而暴露敏感的个人数据,如电话号码、地址、消息和财务信息。现有的防御措施要么减少UI暴露,要么仅混淆与任务无关的内容,要么依赖于用户授权,但都无法在保持无缝代理可用性的同时保护任务关键的敏感信息。我们提出了一种基于匿名化的隐私保护框架,该框架强制执行对敏感数据的可用但不可见的访问原则:敏感信息对于任务执行仍然可用,但永远不会直接对基于云的代理可见。我们的系统使用一个PII感知的识别模型来检测敏感的UI内容,并用确定性的、类型保留的占位符(例如,PHONE_NUMBER#a1b2c)替换它,这些占位符保留语义类别,同时删除识别细节。一个分层架构,包括PII检测器、UI转换器、安全交互代理和隐私门卫,确保跨用户指令、XML层次结构和屏幕截图的一致匿名化,调解所有代理对匿名界面的操作,并在需要对原始值进行推理时支持范围狭窄的本地计算。在AndroidLab和PrivScreen基准上的大量实验表明,我们的框架大大降低了跨多个模型的隐私泄露,同时仅导致适度的效用降级,在现有方法中实现了最佳的隐私-效用权衡。

🔬 方法详解

问题定义:移动GUI代理在自动化智能手机任务时,需要访问屏幕内容,这导致了严重的隐私泄露风险,例如电话号码、地址、消息和财务信息等敏感数据会被暴露。现有的隐私保护方法要么降低UI暴露,要么仅混淆非任务相关内容,要么依赖用户授权,无法在保护任务关键信息的同时保证代理的可用性。

核心思路:核心思想是“可用但不可见”。系统检测并匿名化屏幕上的敏感信息,将其替换为类型保留的占位符,例如将电话号码替换为“PHONE_NUMBER#a1b2c”。这样,代理仍然可以基于占位符进行推理和操作,但无法直接访问原始的敏感数据。

技术框架:系统包含四个主要模块:PII检测器(识别屏幕上的敏感信息)、UI转换器(将敏感信息替换为占位符)、安全交互代理(中介代理的所有操作,确保操作基于匿名化的界面)和隐私门卫(在需要原始值进行推理时,支持范围狭窄的本地计算)。该架构确保了用户指令、XML层次结构和屏幕截图的一致匿名化。

关键创新:关键创新在于匿名化策略,它不仅隐藏了敏感信息,还保留了信息的类型和语义,使得代理可以在匿名化的数据上执行任务。此外,分层架构和安全交互代理确保了整个交互过程中的隐私保护。

关键设计:PII检测器需要高精度和召回率,以确保所有敏感信息都被识别。UI转换器需要生成唯一且类型保留的占位符。安全交互代理需要能够正确地将代理的操作映射到匿名化的界面上。隐私门卫需要安全地执行本地计算,并防止信息泄露。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在AndroidLab和PrivScreen基准测试中,该框架显著降低了隐私泄露,同时仅造成了适度的效用下降。实验结果表明,该方法在现有方法中实现了最佳的隐私-效用权衡。具体的性能数据和提升幅度在论文中未详细说明,属于未知信息。

🎯 应用场景

该研究成果可应用于各种需要自动化GUI交互的场景,例如智能助手、自动化测试、RPA(机器人流程自动化)等。通过保护用户隐私,可以提高用户对这些应用的信任度,促进其更广泛的应用。未来,该技术可以扩展到其他类型的设备和应用,例如智能家居设备、车载系统等。

📄 摘要(原文)

Mobile Graphical User Interface (GUI) agents have demonstrated strong capabilities in automating complex smartphone tasks by leveraging multimodal large language models (MLLMs) and system-level control interfaces. However, this paradigm introduces significant privacy risks, as agents typically capture and process entire screen contents, thereby exposing sensitive personal data such as phone numbers, addresses, messages, and financial information. Existing defenses either reduce UI exposure, obfuscate only task-irrelevant content, or rely on user authorization, but none can protect task-critical sensitive information while preserving seamless agent usability. We propose an anonymization-based privacy protection framework that enforces the principle of available-but-invisible access to sensitive data: sensitive information remains usable for task execution but is never directly visible to the cloud-based agent. Our system detects sensitive UI content using a PII-aware recognition model and replaces it with deterministic, type-preserving placeholders (e.g., PHONE_NUMBER#a1b2c) that retain semantic categories while removing identifying details. A layered architecture comprising a PII Detector, UI Transformer, Secure Interaction Proxy, and Privacy Gatekeeper ensures consistent anonymization across user instructions, XML hierarchies, and screenshots, mediates all agent actions over anonymized interfaces, and supports narrowly scoped local computations when reasoning over raw values is necessary. Extensive experiments on the AndroidLab and PrivScreen benchmarks show that our framework substantially reduces privacy leakage across multiple models while incurring only modest utility degradation, achieving the best observed privacy-utility trade-off among existing methods. Code available at: https://github.com/one-step-beh1nd/gui_privacy_protection