UI-JEPA: Towards Active Perception of User Intent through Onscreen User Activity

📄 arXiv: 2409.04081v3 📥 PDF

作者: Yicheng Fu, Raviteja Anantha, Prabal Vashisht, Jianpeng Cheng, Etai Littwin

分类: cs.CL, cs.AI, cs.HC, cs.LG

发布日期: 2024-09-06 (更新: 2024-10-02)


💡 一句话要点

UI-JEPA:通过屏幕用户活动实现用户意图的主动感知

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 用户意图预测 自监督学习 UI理解 JEPA 多模态学习

📋 核心要点

  1. 现有MLLM虽然在UI理解方面表现出色,但参数量大、计算成本高,难以部署在对延迟和隐私有要求的设备上。
  2. UI-JEPA通过自监督学习从无标签数据中学习UI嵌入,并结合LLM解码器进行用户意图预测,降低了计算成本。
  3. 实验表明,UI-JEPA在用户意图预测方面与大型MLLM性能相当,同时显著降低了计算成本和延迟,并提出了新的数据集。

📝 摘要(中文)

从用户界面(UI)操作序列中生成用户意图是全面UI理解的核心挑战。多模态大型语言模型(MLLM)的最新进展在此领域取得了显著进展,但它们对大量模型参数、计算能力和高延迟的需求使其不适用于需要轻量级、低延迟或高度隐私的设备端解决方案。此外,缺乏高质量的数据集阻碍了此类轻量级模型的发展。为了应对这些挑战,我们提出了UI-JEPA,这是一种新颖的框架,它采用掩码策略通过自监督学习从无标签数据中学习抽象的UI嵌入,并结合针对用户意图预测进行微调的LLM解码器。我们还引入了两个新的UI多模态数据集“Intent in the Wild”(IIW)和“Intent in the Tame”(IIT),专为少样本和零样本UI理解任务而设计。IIW包含219个意图类别的1.7K个视频,而IIT包含10个类别的914个视频。我们为这些数据集建立了第一个基线,表明使用JEPA风格目标学习的表示,结合LLM解码器,可以实现与最先进的大型MLLM相匹配的用户意图预测,但显著减少了标注和部署资源。通过意图相似性得分衡量,UI-JEPA在两个数据集上的平均表现分别优于GPT-4 Turbo和Claude 3.5 Sonnet 10.0%和7.2%。值得注意的是,UI-JEPA在IIW数据集中实现了50.5倍的计算成本降低和6.6倍的延迟改进。这些结果强调了UI-JEPA的有效性,突出了其在轻量级、高性能UI理解方面的潜力。

🔬 方法详解

问题定义:论文旨在解决从用户界面(UI)操作序列中准确高效地推断用户意图的问题。现有的大型多模态模型(MLLM)虽然性能优越,但计算成本高昂,延迟大,不适合在资源受限的设备上部署。此外,缺乏高质量的UI意图数据集也限制了轻量级模型的发展。

核心思路:论文的核心思路是利用自监督学习(JEPA)从无标签的UI数据中学习抽象的UI嵌入表示,然后使用轻量级的LLM解码器进行微调,以预测用户意图。这种方法旨在在保持较高预测精度的同时,显著降低计算成本和延迟。

技术框架:UI-JEPA框架主要包含两个阶段:1) 使用JEPA进行自监督UI嵌入学习;2) 使用LLM解码器进行用户意图预测。首先,通过掩码策略和对比学习,从无标签UI数据中学习到高质量的UI嵌入。然后,将学习到的UI嵌入输入到预训练的LLM解码器中,并使用少量标注数据进行微调,以实现用户意图的预测。

关键创新:UI-JEPA的关键创新在于其利用JEPA进行自监督UI嵌入学习。与传统的监督学习方法相比,JEPA能够从大量的无标签数据中学习到更鲁棒和泛化的UI表示。此外,该框架还提出了两个新的UI多模态数据集(IIW和IIT),为UI意图理解的研究提供了新的资源。

关键设计:在JEPA的实现中,使用了Transformer作为编码器,通过掩码部分UI输入,并预测被掩盖的部分,从而学习UI的上下文表示。损失函数采用对比学习损失,鼓励相似的UI状态具有相似的嵌入表示。LLM解码器采用预训练的语言模型,并使用交叉熵损失进行微调,以预测用户意图。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UI-JEPA在两个新的UI多模态数据集(IIW和IIT)上进行了评估,结果表明,UI-JEPA在用户意图预测方面与GPT-4 Turbo和Claude 3.5 Sonnet等大型MLLM的性能相当,甚至更优(意图相似性得分分别高出10.0%和7.2%)。同时,UI-JEPA在IIW数据集中实现了50.5倍的计算成本降低和6.6倍的延迟改进。

🎯 应用场景

UI-JEPA可应用于智能助手、自动化测试、用户行为分析等领域。例如,智能助手可以根据用户的屏幕操作预测用户意图,从而提供更个性化的服务。自动化测试可以利用UI-JEPA自动生成测试用例,提高测试效率。用户行为分析可以利用UI-JEPA分析用户的操作习惯,从而优化UI设计。

📄 摘要(原文)

Generating user intent from a sequence of user interface (UI) actions is a core challenge in comprehensive UI understanding. Recent advancements in multimodal large language models (MLLMs) have led to substantial progress in this area, but their demands for extensive model parameters, computing power, and high latency makes them impractical for scenarios requiring lightweight, on-device solutions with low latency or heightened privacy. Additionally, the lack of high-quality datasets has hindered the development of such lightweight models. To address these challenges, we propose UI-JEPA, a novel framework that employs masking strategies to learn abstract UI embeddings from unlabeled data through self-supervised learning, combined with an LLM decoder fine-tuned for user intent prediction. We also introduce two new UI-grounded multimodal datasets, "Intent in the Wild" (IIW) and "Intent in the Tame" (IIT), designed for few-shot and zero-shot UI understanding tasks. IIW consists of 1.7K videos across 219 intent categories, while IIT contains 914 videos across 10 categories. We establish the first baselines for these datasets, showing that representations learned using a JEPA-style objective, combined with an LLM decoder, can achieve user intent predictions that match the performance of state-of-the-art large MLLMs, but with significantly reduced annotation and deployment resources. Measured by intent similarity scores, UI-JEPA outperforms GPT-4 Turbo and Claude 3.5 Sonnet by 10.0% and 7.2% respectively, averaged across two datasets. Notably, UI-JEPA accomplishes the performance with a 50.5x reduction in computational cost and a 6.6x improvement in latency in the IIW dataset. These results underscore the effectiveness of UI-JEPA, highlighting its potential for lightweight, high-performance UI understanding.