CORE: Code-based Inverse Self-Training Framework with Graph Expansion for Virtual Agents

📄 arXiv: 2601.02201v1 📥 PDF

作者: Keyu Wang, Bingchen Miao, Wendong Bu, Yu Wu, Juncheng Li, Shengyu Zhang, Wenqiao Zhang, Siliang Tang, Jun Xiao, Yueting Zhuang

分类: cs.LG, cs.CV

发布日期: 2026-01-05

备注: 19 pages, 12 figures


💡 一句话要点

CORE:基于代码逆向自训练框架与图扩展,提升虚拟代理行为多样性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 虚拟代理 逆向自训练 代码抽象 图扩展 行为多样性 奖励函数 多模态

📋 核心要点

  1. 行为克隆模仿专家行为简单有效,但行为多样性不足;强化学习虽能探索新策略,却依赖人工设计的奖励函数。
  2. CORE框架通过语义代码抽象自动推断奖励函数,并利用策略图扩展和轨迹引导外推来提升行为多样性。
  3. 实验表明,CORE显著提升了虚拟代理在Web和Android平台上的整体性能和泛化能力。

📝 摘要(中文)

本文提出CORE,一个基于代码的逆向自训练框架,结合图扩展,旨在弥合模仿学习和强化学习之间的差距,为虚拟代理提供一种新颖的训练框架,该框架能够提升行为多样性,同时消除对人工设计的奖励函数的依赖。具体而言,我们引入语义代码抽象,从专家演示中自动推断奖励函数,无需手动设计。推断出的奖励函数,被称为标签函数,是可执行的代码,用于验证任务中的关键步骤。在此基础上,我们提出策略图扩展,通过构建一个多路径图(称为策略图)来捕获专家演示之外的各种有效解决方案,从而增强领域内的行为多样性。此外,我们引入轨迹引导的外推,利用成功和失败的轨迹来扩展任务空间,从而丰富领域外的行为多样性。在Web和Android平台上的实验表明,CORE显著提高了整体性能和泛化能力,突显了其作为构建强大虚拟代理的鲁棒且通用的训练范例的潜力。

🔬 方法详解

问题定义:现有虚拟代理训练方法面临行为多样性和奖励函数设计的挑战。行为克隆(Behavior Cloning)虽然简单有效,但过度依赖专家数据,导致行为多样性不足。强化学习(Reinforcement Learning)虽然能够探索新的策略,但严重依赖于人工设计的奖励函数,而设计合适的奖励函数往往非常困难且耗时。

核心思路:CORE框架的核心思路是结合模仿学习和强化学习的优点,同时克服它们的缺点。通过从专家演示中自动推断奖励函数,避免了人工设计的复杂性。利用图扩展和轨迹引导外推,增加了行为的多样性,使得代理能够探索更广泛的策略空间。

技术框架:CORE框架主要包含三个核心模块:语义代码抽象(Semantic Code Abstraction)、策略图扩展(Strategy Graph Expansion)和轨迹引导外推(Trajectory-Guided Extrapolation)。首先,语义代码抽象从专家演示中提取可执行的标签函数,作为奖励信号。然后,策略图扩展构建一个多路径图,捕捉多种有效的解决方案。最后,轨迹引导外推利用成功和失败的轨迹来扩展任务空间,提升泛化能力。

关键创新:CORE框架的关键创新在于:1) 提出语义代码抽象,自动从专家演示中推断奖励函数,无需人工设计;2) 引入策略图扩展,通过构建多路径图来增强领域内的行为多样性;3) 提出轨迹引导外推,利用成功和失败的轨迹来扩展任务空间,提升领域外的泛化能力。

关键设计:语义代码抽象模块将专家演示转化为可执行的标签函数,这些函数验证任务中的关键步骤。策略图扩展模块构建一个多路径图,节点表示状态,边表示动作,通过搜索该图来发现新的策略。轨迹引导外推模块利用强化学习算法,结合标签函数作为奖励信号,训练代理在扩展的任务空间中进行探索。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CORE框架在Web和Android平台上显著提高了虚拟代理的整体性能和泛化能力。与传统的行为克隆和强化学习方法相比,CORE能够学习到更加多样化的策略,并且能够更好地适应未知的环境。具体性能提升数据在论文中进行了详细展示。

🎯 应用场景

CORE框架可广泛应用于各种需要虚拟代理的场景,例如自动化测试、智能助手、游戏AI等。它能够提升虚拟代理的智能化水平和泛化能力,使其能够更好地适应复杂多变的环境,完成各种任务。该研究有望推动虚拟代理技术的发展,使其在实际应用中发挥更大的作用。

📄 摘要(原文)

The development of Multimodal Virtual Agents has made significant progress through the integration of Multimodal Large Language Models. However, mainstream training paradigms face key challenges: Behavior Cloning is simple and effective through imitation but suffers from low behavioral diversity, while Reinforcement Learning is capable of discovering novel strategies through exploration but heavily relies on manually designed reward functions. To address the conflict between these two methods, we present CORE, a Code-based Inverse Self-Training Framework with Graph Expansion that bridges imitation and exploration, offering a novel training framework that promotes behavioral diversity while eliminating the reliance on manually reward design. Specifically, we introduce Semantic Code Abstraction to automatically infers reward functions from expert demonstrations without manual design. The inferred reward function, referred to as the Label Function, is executable code that verifies one key step within a task. Building on this, we propose Strategy Graph Expansion to enhance in-domain behavioral diversity, which constructs a multi-path graph called Strategy Graph that captures diverse valid solutions beyond expert demonstrations. Furthermore, we introduce Trajectory-Guided Extrapolation, which enriches out-of-domain behavioral diversity by utilizing both successful and failed trajectories to expand the task space. Experiments on Web and Android platforms demonstrate that CORE significantly improves both overall performance and generalization, highlighting its potential as a robust and generalizable training paradigm for building powerful virtual agents.