Mobile GUI Agent Privacy Personalization with Trajectory Induced Preference Optimization

📄 arXiv: 2604.11259v1 📥 PDF

作者: Zhixin Lin, Jungang Li, Dongliang Xu, Shidong Pan, Yibo Shi, Yuchi Liu, Yuecong Min, Yue Yao

分类: cs.AI, cs.CR

发布日期: 2026-04-13

备注: 10 pages, 6 figures, 3 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出TIPO,通过轨迹诱导偏好优化实现移动GUI代理的隐私个性化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 移动GUI代理 隐私个性化 偏好优化 轨迹诱导 多模态大语言模型

📋 核心要点

  1. 现有移动GUI代理主要关注任务成功率,忽略了用户隐私偏好带来的个性化需求。
  2. TIPO通过轨迹诱导偏好优化,强调隐私相关步骤,抑制噪声,从而实现更好的个性化。
  3. 实验表明,TIPO在成功率、合规性和隐私区分度上均优于现有方法,提升了GUI代理的隐私个性化能力。

📝 摘要(中文)

本文研究了移动GUI代理的个性化问题,该代理由多模态大型语言模型(MLLM)驱动。现有系统主要优化任务成功率或效率,忽略了用户的隐私个性化。本文观察到,个性化会在执行轨迹中产生系统性的结构异质性。例如,注重隐私的用户倾向于保护性操作,从而产生与注重效用的用户在逻辑上不同的执行轨迹。这种可变长度和结构不同的轨迹使得标准偏好优化不稳定且信息量不足。为此,本文提出了轨迹诱导偏好优化(TIPO),它使用偏好强度加权来强调关键的隐私相关步骤,并使用填充门控来抑制对齐噪声。在隐私偏好数据集上的结果表明,TIPO在保持强大任务可执行性的同时,提高了角色对齐和区分度,在各种GUI任务中优于现有的优化方法,实现了65.60%的成功率(SR),46.22%的合规性(Compliance)和66.67%的隐私区分度(PD)。代码和数据集将在https://github.com/Zhixin-L/TIPO上公开发布。

🔬 方法详解

问题定义:现有移动GUI代理主要优化任务成功率和效率,忽略了用户隐私偏好带来的个性化需求。不同用户对隐私的重视程度不同,导致在执行相同任务时产生不同的轨迹。现有偏好优化方法难以处理这种轨迹的结构异质性和可变长度,导致优化不稳定且信息量不足。

核心思路:TIPO的核心思路是利用轨迹信息来优化代理的偏好,特别是针对隐私相关的偏好。通过分析不同用户在执行任务时的轨迹差异,学习到不同用户的隐私偏好,并指导代理的行为。TIPO强调关键的隐私相关步骤,并抑制噪声,从而提高偏好优化的稳定性和准确性。

技术框架:TIPO包含两个主要模块:偏好强度加权和填充门控。偏好强度加权模块用于强调轨迹中关键的隐私相关步骤,例如拒绝权限请求、退出登录等。填充门控模块用于抑制轨迹中与隐私无关的噪声,例如点击无关按钮等。这两个模块共同作用,使得代理能够更好地学习用户的隐私偏好。整体流程是,首先收集不同用户的执行轨迹,然后使用偏好强度加权和填充门控对轨迹进行处理,最后使用处理后的轨迹来训练代理的偏好模型。

关键创新:TIPO的关键创新在于利用轨迹信息来优化代理的偏好,特别是针对隐私相关的偏好。与现有方法相比,TIPO能够更好地处理轨迹的结构异质性和可变长度,从而提高偏好优化的稳定性和准确性。此外,TIPO还引入了偏好强度加权和填充门控两个模块,进一步提高了偏好优化的效果。

关键设计:偏好强度加权模块使用一个可学习的权重来表示每个步骤的隐私相关性。这个权重可以根据步骤的内容、上下文等信息来动态调整。填充门控模块使用一个sigmoid函数来控制每个步骤的贡献。如果一个步骤与隐私无关,那么它的贡献将被抑制。损失函数的设计目标是最大化代理与用户偏好的一致性,同时保持任务的可执行性。具体来说,损失函数包含三个部分:偏好损失、任务损失和正则化损失。偏好损失用于衡量代理与用户偏好的一致性,任务损失用于衡量代理的任务可执行性,正则化损失用于防止过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,TIPO在隐私偏好数据集上取得了显著的性能提升。具体来说,TIPO实现了65.60%的成功率(SR),46.22%的合规性(Compliance)和66.67%的隐私区分度(PD),优于现有的优化方法。这些结果表明,TIPO能够有效地学习用户的隐私偏好,并指导代理的行为。

🎯 应用场景

该研究成果可应用于各种移动GUI代理,例如智能助手、自动化测试工具等。通过个性化隐私设置,代理可以更好地满足用户的隐私需求,提升用户体验。此外,该方法还可以扩展到其他类型的偏好学习任务,例如个性化推荐、智能家居控制等,具有广泛的应用前景。

📄 摘要(原文)

Mobile GUI agents powered by Multimodal Large Language Models (MLLMs) can execute complex tasks on mobile devices. Despite this progress, most existing systems still optimize task success or efficiency, neglecting users' privacy personalization. In this paper, we study the often-overlooked problem of agent personalization. We observe that personalization can induce systematic structural heterogeneity in execution trajectories. For example, privacy-first users often prefer protective actions, e.g., refusing permissions, logging out, and minimizing exposure, leading to logically different execution trajectories from utility-first users. Such variable-length and structurally different trajectories make standard preference optimization unstable and less informative. To address this issue, we propose Trajectory Induced Preference Optimization (TIPO), which uses preference-intensity weighting to emphasize key privacy-related steps and padding gating to suppress alignment noise. Results on our Privacy Preference Dataset show that TIPO improves persona alignment and distinction while preserving strong task executability, achieving 65.60% SR, 46.22 Compliance, and 66.67% PD, outperforming existing optimization methods across various GUI tasks. The code and dataset will be publicly released at https://github.com/Zhixin-L/TIPO.