Beyond Syntax: Action Semantics Learning for App Agents

📄 arXiv: 2506.17697v1 📥 PDF

作者: Bohan Tang, Dezhao Luo, Jingxuan Chen, Shaogang Gong, Jianye Hao, Jun Wang, Kun Shao

分类: cs.AI

发布日期: 2025-06-21


💡 一句话要点

提出动作语义学习(ASL)框架,提升App智能体在智能手机应用操作中的泛化能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: App智能体 动作语义学习 语义估计 强化学习 分布外泛化 用户界面 状态转换

📋 核心要点

  1. 现有App智能体微调方法依赖语法学习,要求精确复现动作字符串,导致模型在分布外数据上表现不佳。
  2. 论文提出动作语义学习(ASL)框架,通过学习动作在用户界面中引起的状态转换来捕获动作的语义。
  3. 实验结果表明,ASL显著提高了App智能体的准确性和泛化能力,尤其是在分布外数据上表现出更强的鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)的出现推动了App智能体的发展,它们能够理解用户意图并通过点击和滚动等动作操作智能手机App。虽然基于提示和闭源LLM API的解决方案显示出不错的能力,但它们带来了巨大的计算成本和对外部API的依赖。微调较小的开源LLMs可以解决这些限制。然而,目前的微调方法使用语法学习范式,迫使智能体精确地重现ground truth动作字符串,导致分布外(OOD)脆弱性。为了填补这一空白,我们提出了一种新的学习框架——动作语义学习(ASL),其中学习目标是捕获ground truth动作的语义。具体来说,受到编程语言理论的启发,我们将App智能体的动作语义定义为动作在用户界面中引起的状态转换。基于此,ASL采用了一种新的语义估计器(SEE)来计算语义奖励,以训练App智能体生成与ground truth动作语义对齐的动作,即使语法形式不同。为了支持ASL的有效性,我们从理论上证明了ASL相比现有的语法学习范式,在OOD问题上具有更强的鲁棒性。在离线和在线智能手机App操作基准上的大量实验表明,ASL显著提高了App智能体的准确性和泛化能力。

🔬 方法详解

问题定义:现有App智能体的微调方法主要采用语法学习范式,即要求模型精确地预测ground truth的动作字符串。这种方法对训练数据过度拟合,导致模型在面对新的、未见过的App界面或操作时,泛化能力较差,容易出现分布外(OOD)问题。现有方法缺乏对动作本质语义的理解,仅仅关注表面的语法形式。

核心思路:论文的核心思路是将App智能体的学习目标从语法层面提升到语义层面。具体来说,论文将动作的语义定义为该动作在用户界面中引起的状态转换。通过学习动作的语义,模型可以更好地理解动作的本质,从而在面对新的、未见过的场景时,能够生成语义上正确的动作,即使这些动作的语法形式与训练数据不同。

技术框架:ASL框架主要包含两个核心模块:App智能体和语义估计器(SEE)。App智能体负责生成动作,SEE负责评估生成动作的语义正确性,并提供语义奖励。整个训练过程采用强化学习的方式,App智能体根据SEE提供的语义奖励进行学习,不断优化其动作生成策略。框架的整体流程是:用户输入指令,App智能体生成动作,执行动作后用户界面状态发生改变,SEE评估状态改变的语义正确性,并生成奖励信号,App智能体根据奖励信号更新模型参数。

关键创新:论文最重要的技术创新点在于提出了动作语义学习(ASL)的概念,并将动作的语义定义为动作在用户界面中引起的状态转换。此外,论文还设计了一个语义估计器(SEE)来评估动作的语义正确性。与传统的语法学习方法相比,ASL更加关注动作的本质语义,从而提高了模型的泛化能力和鲁棒性。

关键设计:语义估计器(SEE)的设计是关键。SEE需要能够准确地评估动作引起的状态转换的语义正确性。具体实现方式未知,论文中可能使用了某种形式的度量学习或对比学习,来学习状态之间的相似度。奖励函数的设计也至关重要,需要能够有效地引导App智能体学习动作的语义。具体的网络结构和参数设置未知,需要在论文中进一步查找。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,ASL在离线和在线智能手机App操作基准上显著提高了App智能体的准确性和泛化能力。与现有的语法学习方法相比,ASL在分布外数据上表现出更强的鲁棒性,准确率提升幅度未知,需要在论文中查找具体数据。

🎯 应用场景

该研究成果可广泛应用于智能助手、自动化测试、无障碍辅助等领域。例如,可以开发更智能的App助手,帮助用户自动完成各种App操作;可以用于自动化测试,自动检测App的各种功能;可以为残疾人士提供无障碍辅助,帮助他们更方便地使用智能手机。

📄 摘要(原文)

The advent of Large Language Models (LLMs) enables the rise of App agents that interpret user intent and operate smartphone Apps through actions such as clicking and scrolling. While prompt-based solutions with closed LLM APIs show promising ability, they incur heavy compute costs and external API dependency. Fine-tuning smaller open-source LLMs solves these limitations. However, current fine-tuning methods use a syntax learning paradigm that forces agents to reproduce exactly the ground truth action strings, leading to out-of-distribution (OOD) vulnerability. To fill this gap, we propose Action Semantics Learning (ASL), a novel learning framework, where the learning objective is capturing the semantics of the ground truth actions. Specifically, inspired by the programming language theory, we define the action semantics for App agents as the state transition induced by the action in the user interface. With this insight, ASL employs a novel SEmantic Estimator (SEE) to compute a semantic reward to train the App agents in generating actions aligned with the semantics of ground truth actions, even when the syntactic forms differ. To support the effectiveness of ASL, we theoretically demonstrate the superior robustness of ASL for the OOD problem compared with the existing syntax learning paradigm. Extensive experiments on offline and online smartphone App operation benchmarks show that ASL significantly improves the accuracy and generalisation of App agents over existing methods.