ExT: Towards Scalable Autonomous Excavation via Large-Scale Multi-Task Pretraining and Fine-Tuning

📄 arXiv: 2509.14992v2 📥 PDF

作者: Yifan Zhai, Lorenzo Terenzi, Patrick Frey, Diego Garcia Soto, Pascal Egli, Marco Hutter

分类: cs.RO

发布日期: 2025-09-18 (更新: 2025-09-22)


💡 一句话要点

ExT:基于大规模多任务预训练和微调实现可扩展的自主挖掘

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自主挖掘 多任务学习 预训练 微调 强化学习 机器人 计算机视觉

📋 核心要点

  1. 现有自主挖掘系统依赖于高度工程化的任务特定控制器,需要针对每个新场景进行大量手动调整,泛化能力弱。
  2. ExT框架通过大规模多任务预训练和微调,使挖掘策略具备更强的适应性,能够处理未见过的工况和新的硬件配置。
  3. 实验结果表明,ExT策略在仿真和真实世界中均表现出色,能够以厘米级精度完成挖掘任务,并快速适应新任务。

📝 摘要(中文)

本文提出了ExT,一个统一的开源框架,用于大规模演示数据收集、预训练和微调多任务挖掘策略,旨在扩展自主挖掘机的应用。ExT策略首先基于从多种专家收集的大规模演示数据进行训练,然后通过监督微调(SFT)或强化学习微调(RLFT)进行微调,以适应新的任务或操作条件。通过仿真和真实世界的实验,结果表明,预训练的ExT策略能够以厘米级的精度执行完整的挖掘循环,成功地从仿真转移到真实机器,性能与专门的单任务控制器相当。此外,在仿真中,ExT的微调流程能够快速适应新的任务、分布外条件和机器配置,同时保持在先前学习任务上的强大性能。这些结果突出了ExT作为可扩展和通用自主挖掘基础的潜力。

🔬 方法详解

问题定义:自主挖掘领域面临的挑战是如何设计能够泛化到不同工作环境和硬件配置的控制策略。现有的方法通常依赖于针对特定任务手工设计的控制器,这需要大量的人工调整,并且难以适应新的场景。因此,需要一种能够自动学习并适应不同挖掘任务和环境的通用方法。

核心思路:本文的核心思路是利用大规模多任务预训练和微调来学习通用的挖掘策略。通过在大量不同任务和环境的数据上进行预训练,模型可以学习到挖掘任务的基本规律和通用技能。然后,通过在特定任务或环境的数据上进行微调,模型可以快速适应新的场景,从而实现更好的性能。

技术框架:ExT框架包含三个主要阶段:数据收集、预训练和微调。首先,收集来自不同专家的大规模演示数据,包括仿真数据和真实世界数据。然后,使用这些数据对多任务挖掘策略进行预训练,使其学习到通用的挖掘技能。最后,根据具体任务的需求,使用监督微调(SFT)或强化学习微调(RLFT)对预训练模型进行微调,以适应新的任务或环境。

关键创新:ExT的关键创新在于将大规模多任务预训练应用于自主挖掘领域。与传统的单任务学习方法相比,ExT能够利用大量的数据来学习通用的挖掘策略,从而提高模型的泛化能力和适应性。此外,ExT还提供了一个统一的开源框架,方便研究人员进行数据收集、预训练和微调。

关键设计:ExT使用Transformer网络作为其策略模型,并采用行为克隆作为预训练方法。在微调阶段,可以使用监督微调(SFT)或强化学习微调(RLFT)。损失函数包括行为克隆损失和强化学习奖励函数。具体参数设置和网络结构细节未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ExT策略在仿真和真实世界的实验中均表现出色,能够以厘米级的精度执行完整的挖掘循环,成功地从仿真转移到真实机器,性能与专门的单任务控制器相当。在仿真中,ExT的微调流程能够快速适应新的任务、分布外条件和机器配置,同时保持在先前学习任务上的强大性能。具体性能提升数据未知。

🎯 应用场景

ExT框架可应用于各种自主挖掘场景,例如建筑工地、矿山和灾害救援等。通过预训练和微调,ExT可以快速适应不同的挖掘任务和环境,从而提高挖掘效率和安全性。此外,ExT还可以用于开发更智能的挖掘机器人,使其能够自主完成复杂的挖掘任务。

📄 摘要(原文)

Scaling up the deployment of autonomous excavators is of great economic and societal importance. Yet it remains a challenging problem, as effective systems must robustly handle unseen worksite conditions and new hardware configurations. Current state-of-the-art approaches rely on highly engineered, task-specific controllers, which require extensive manual tuning for each new scenario. In contrast, recent advances in large-scale pretrained models have shown remarkable adaptability across tasks and embodiments in domains such as manipulation and navigation, but their applicability to heavy construction machinery remains largely unexplored. In this work, we introduce ExT, a unified open-source framework for large-scale demonstration collection, pretraining, and fine-tuning of multitask excavation policies. ExT policies are first trained on large-scale demonstrations collected from a mix of experts, then fine-tuned either with supervised fine-tuning (SFT) or reinforcement learning fine-tuning (RLFT) to specialize to new tasks or operating conditions. Through both simulation and real-world experiments, we show that pretrained ExT policies can execute complete excavation cycles with centimeter-level accuracy, successfully transferring from simulation to real machine with performance comparable to specialized single-task controllers. Furthermore, in simulation, we demonstrate that ExT's fine-tuning pipelines allow rapid adaptation to new tasks, out-of-distribution conditions, and machine configurations, while maintaining strong performance on previously learned tasks. These results highlight the potential of ExT to serve as a foundation for scalable and generalizable autonomous excavation.