ASH: Agents that Self-Hone via Embodied Learning
作者: Benjamin Schneider, Xavier Schneider, Victor Zhong, Sun Sun
分类: cs.AI, cs.LG
发布日期: 2026-05-14
💡 一句话要点
ASH:通过具身学习进行自我提升的智能体,解决长时程任务难题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 具身学习 自我提升 逆动力学模型 长时程任务 无监督学习 互联网视频 游戏AI
📋 核心要点
- 现有具身学习方法依赖手工设计的奖励或专家标注,难以扩展到长时程任务。
- ASH通过自我改进循环,利用逆动力学模型从互联网视频中提取监督信号。
- 实验表明,ASH在长时程游戏任务中显著优于行为克隆等基线方法。
📝 摘要(中文)
长时程具身任务仍然是人工智能领域的一个根本性挑战,因为当前的方法依赖于手工设计的奖励或动作标记的演示,这两种方法都难以扩展。我们介绍了一种名为ASH的智能体系统,该系统从无标签、嘈杂的互联网视频中学习具身策略,无需奖励塑造或专家标注。ASH遵循一个自我改进的循环;当它遇到困难时,ASH会从自己的轨迹中学习一个逆动力学模型(IDM),并利用其IDM从相关的互联网视频中提取监督信号。ASH使用无监督学习来识别大规模互联网视频中的关键时刻,并将它们作为长期记忆保留下来,从而能够解决长时程问题。我们在两个互补的环境中评估了ASH,这两个环境都需要数小时的规划:口袋妖怪绿宝石(Pokemon Emerald),一个回合制RPG游戏;塞尔达传说:缩小帽(The Legend of Zelda: The Minish Cap),一个实时动作冒险游戏。在这两款游戏中,行为克隆、检索增强和零样本基础模型基线都停滞不前,而ASH在我们的8小时评估中保持了持续的进展。ASH在口袋妖怪绿宝石中平均达到11.2/12个里程碑,在塞尔达传说中达到9.9/12个里程碑,而最强的基线在这两个环境中分别停留在平均6.5/12个和6.0/12个里程碑。我们证明了自我改进的智能体是长时程具身学习的可扩展方法。
🔬 方法详解
问题定义:论文旨在解决长时程具身任务中,现有方法依赖人工标注或奖励函数而导致的可扩展性问题。现有方法难以利用大规模无标注数据,限制了智能体在复杂环境中的学习能力。
核心思路:论文的核心在于提出一种自我提升的智能体框架,通过从自身经验和互联网视频中学习,不断改进策略。智能体通过逆动力学模型(IDM)理解自身行为,并从互联网视频中提取有用的监督信号,从而克服了对人工标注数据的依赖。
技术框架:ASH系统包含以下主要模块:1) 智能体与环境交互,生成自身轨迹;2) 逆动力学模型(IDM)从智能体轨迹中学习,用于预测给定状态和动作的下一个状态;3) 从大规模互联网视频中检索相关片段;4) 利用IDM从检索到的视频片段中提取监督信号,用于策略学习;5) 使用无监督学习方法识别视频中的关键时刻,并将其存储为长期记忆。
关键创新:最重要的创新点在于利用智能体自身的经验和互联网视频进行自我监督学习,避免了对人工标注数据的依赖。通过逆动力学模型,智能体可以理解自身行为,并从互联网视频中提取有用的信息,从而实现持续的自我改进。
关键设计:IDM采用神经网络结构,输入当前状态和动作,输出预测的下一个状态。损失函数采用均方误差,衡量预测状态与实际状态之间的差异。无监督学习方法用于识别视频中的关键帧,例如使用聚类算法对视频帧进行分组,并选择每个簇的代表性帧作为关键帧。
📊 实验亮点
实验结果表明,ASH在口袋妖怪绿宝石和塞尔达传说:缩小帽两款游戏中均取得了显著的性能提升。在口袋妖怪绿宝石中,ASH平均达到11.2/12个里程碑,而最强的基线仅达到6.5/12个。在塞尔达传说中,ASH平均达到9.9/12个里程碑,而最强的基线仅达到6.0/12个。这表明ASH在长时程任务中具有显著的优势。
🎯 应用场景
该研究成果可应用于机器人导航、游戏AI、自动驾驶等领域。通过利用大规模无标注数据进行自我学习,智能体可以更好地适应复杂环境,完成长时程任务。该方法有望降低对人工标注数据的依赖,提高智能体的泛化能力和鲁棒性。
📄 摘要(原文)
Long-horizon embodied tasks remain a fundamental challenge in AI, as current methods rely on hand-engineered rewards or action-labeled demonstrations, neither of which scales. We introduce ASH, an agentic system that learns an embodied policy from unlabeled, noisy internet video, without reward shaping or expert annotation. ASH follows a self-improvement loop; when it gets stuck, ASH learns an Inverse Dynamics Model (IDM) from its own trajectories, and uses its IDM to extract supervision from relevant internet video. ASH uses unsupervised learning to identify key moments from large-scale internet video and retains them as long-term memory -- allowing it to tackle long-horizon problems. We evaluate ASH on two complementary environments demanding multi-hour planning: Pokemon Emerald, a turn-based RPG, and The Legend of Zelda: The Minish Cap, a real-time action-adventure game. In both games, behavioral cloning, retrieval-augmented and zero-shot foundation-model baselines plateau, while ASH sustains progression across our 8-hour evaluation. ASH reaches an average of $11.2/12$ milestones in Pokemon Emerald and $9.9/12$ in Legend of Zelda, while the strongest baseline gets stuck in both environments at an average of $6.5/12$ and $6.0/12$ milestones, respectively. We demonstrate that self-improving agents are a scalable recipe for long-horizon embodied learning.