Habilis-$β$: A Fast-Motion and Long-Lasting On-Device Vision-Language-Action Model

作者: Tommoro Robotics, :, Jesoon Kang, Taegeon Park, Jisu An, Soo Min Kimm, Jaejoon Kim, Jinu Pahk, Byungju Kim, Junseok Lee, Namheon Baek, Sungwan Ha, Hojun Baek, Eduardo Ayerve Cruz, Wontae Kim, Junghyeon Choi, Yousuk Lee, Joonmo Han, Sunghyun Cho, Sunghyun Kwon, Soyoung Lee, Jun Ki Lee, Seung-Joon Yi, Byoung-Tak Zhang, Theo Taeyeong Kim

分类: cs.RO, cs.LG

发布日期: 2026-02-21

💡 一句话要点

Habilis-β：一种快速、持久的端侧视觉-语言-动作模型，适用于真实场景部署。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 机器人 端侧部署 连续运行 无语言预训练

📋 核心要点

现有VLA模型评估侧重单次任务成功率，忽略了真实场景中对快速运动和长期稳定性的需求。
Habilis-β通过无语言预训练学习交互先验，并利用循环任务演示捕捉状态漂移，提升模型性能。
实验表明，Habilis-β在模拟和真实环境中，其TPH和MTBI指标均显著优于基线模型π_{0.5}。

📝 摘要（中文）

本文介绍了一种快速、持久的端侧视觉-语言-动作（VLA）模型Habilis-β，专为真实世界部署而设计。当前VLA评估主要局限于精心设计的重置条件下的单次试验成功率，无法捕捉实际操作所需的高速运动和持久能力。为了解决这个问题，我们引入了生产力-可靠性平面（PRP），通过每小时任务数（TPH）和平均干预间隔时间（MTBI）来评估性能，该评估基于连续运行协议，要求高速执行和持续鲁棒性。Habilis-β通过整合大规模游戏数据的无语言预训练（用于鲁棒的交互先验）和循环任务演示的后训练（用于捕捉连续任务迭代中的状态漂移）来实现高性能。该系统还采用了ESPADA进行相位自适应运动塑造以加速自由空间转移，利用整流流蒸馏在边缘设备上实现高频控制，并结合无分类器引导（CFG）作为部署时旋钮，以动态平衡指令遵循和学习到的交互先验。在1小时的连续运行评估中，与π_{0.5}相比，Habilis-β在模拟和真实环境中均实现了强大的PRP指标性能。在模拟中，Habilis-β实现了572.6 TPH和39.2秒MTBI（π_{0.5}为120.5 TPH和30.5秒），而在真实的人形机器人物流工作流程中，它实现了124 TPH和137.4秒MTBI（π_{0.5}为19 TPH和46.1秒）。最后，Habilis-β在标准RoboTwin 2.0排行榜上实现了最高的报告性能，验证了其在复杂操作场景中的有效性。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）模型在真实世界部署中面临挑战，主要体现在两个方面：一是缺乏对快速运动的优化，导致任务执行速度慢；二是缺乏长期运行的稳定性，容易出现错误需要人工干预。现有的评估方法也主要关注单次任务的成功率，无法有效衡量模型在连续、长时间运行中的性能。

核心思路：Habilis-β的核心思路是结合大规模无语言预训练和循环任务演示的后训练，从而学习到鲁棒的交互先验，并能够适应连续任务迭代中的状态漂移。此外，通过相位自适应运动塑造（ESPADA）加速自由空间转移，并通过整流流蒸馏实现边缘设备上的高频控制。

技术框架：Habilis-β的整体框架包含以下几个主要模块：1) 大规模无语言预训练：利用海量游戏数据进行预训练，学习通用的交互先验。2) 循环任务演示后训练：通过连续的任务演示数据进行微调，使模型能够适应任务中的状态漂移。3) 相位自适应运动塑造（ESPADA）：优化运动轨迹，加速自由空间转移。4) 整流流蒸馏：将模型压缩到边缘设备上，实现高频控制。5) 无分类器引导（CFG）：在部署时动态平衡指令遵循和学习到的交互先验。

关键创新：Habilis-β的关键创新在于其综合利用了多种技术来解决VLA模型在真实世界部署中的挑战。具体包括：1) 引入生产力-可靠性平面（PRP）作为评估指标，更全面地衡量模型的性能。2) 结合无语言预训练和循环任务演示后训练，提升模型的鲁棒性和适应性。3) 利用ESPADA和整流流蒸馏优化运动控制，提高任务执行速度和效率。

关键设计：Habilis-β的关键设计包括：1) 无语言预训练的数据规模和训练方式。2) 循环任务演示数据的选择和标注。3) ESPADA的具体实现方式，包括相位选择和运动轨迹优化。4) 整流流蒸馏的损失函数和网络结构。5) 无分类器引导的权重调整策略。

🖼️ 关键图片

📊 实验亮点

Habilis-β在模拟和真实环境中均取得了显著的性能提升。在模拟环境中，Habilis-β的TPH达到572.6，MTBI达到39.2秒，分别比基线模型π_{0.5}提升了375%和28%。在真实的人形机器人物流工作流程中，Habilis-β的TPH达到124，MTBI达到137.4秒，分别比π_{0.5}提升了553%和198%。此外，Habilis-β还在RoboTwin 2.0排行榜上取得了最高的性能。

🎯 应用场景

Habilis-β具有广泛的应用前景，例如在物流、仓储、制造等领域，可以用于自动化分拣、搬运、装配等任务。该模型能够提高生产效率，降低人工成本，并提升工作环境的安全性。未来，Habilis-β有望应用于更复杂的机器人任务，例如家庭服务、医疗辅助等。

📄 摘要（原文）

We introduce Habilis-$β$, a fast-motion and long-lasting on-device vision-language-action (VLA) model designed for real-world deployment. Current VLA evaluation remains largely confined to single-trial success rates under curated resets, which fails to capture the fast-motion and long-lasting capabilities essential for practical operation. To address this, we introduce the Productivity-Reliability Plane (PRP), which evaluates performance through Tasks per Hour (TPH) and Mean Time Between Intervention (MTBI) under a continuous-run protocol that demands both high-speed execution and sustained robustness. Habilis-$β$ achieves high performance by integrating language-free pre-training on large-scale play data for robust interaction priors with post-training on cyclic task demonstrations that capture state drift across consecutive task iterations. The system further employs ESPADA for phase-adaptive motion shaping to accelerate free-space transit, utilizes rectified-flow distillation to enable high-frequency control on edge devices, and incorporates classifier-free guidance (CFG) as a deployment-time knob to dynamically balance instruction adherence and learned interaction priors. In 1-hour continuous-run evaluations, Habilis-$β$ achieves strong performance under the PRP metrics, compared to $π_{0.5}$ in both simulation and real-world environments. In simulation, Habilis-$β$ achieves 572.6 TPH and 39.2 s MTBI (vs. 120.5 TPH and 30.5 s for $π_{0.5}$), while in a real-world humanoid logistics workflow it achieves 124 TPH and 137.4 s MTBI (vs. 19 TPH and 46.1 s for $π_{0.5}$). Finally, Habilis-$β$ achieves the highest reported performance on the standard RoboTwin 2.0 leaderboard across representative tasks, validating its effectiveness in complex manipulation scenarios.

Habilis-$β$: A Fast-Motion and Long-Lasting On-Device Vision-Language-Action Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理