Health-Conditioned Vision-Language-Action Models for Malfunction-Aware Robot Control

作者: Hüseyin Arslan, Özgür Erkent

分类: cs.RO

发布日期: 2026-05-15

备注: VLA Pipelines Workshop at IEEE International Conference on Robotics and Automation (ICRA) 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出健康状态感知的VLA模型，用于应对机器人功能退化下的控制任务

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 机器人控制 健康状态感知 故障适应 机器人学习

📋 核心要点

现有VLA模型在机器人控制中缺乏对机器人自身物理退化的适应能力，难以应对实际场景中常见的关节退化、执行器故障等问题。
论文提出健康状态感知的VLA模型，通过引入健康向量来表征机器人关节的健康状况，并利用健康状态投影模块调整模型预测。
实验结果表明，该模型能够成功适应不同配置的退化关节，显著优于未考虑健康状态的VLA-Adapter模型。

📝 摘要（中文）

近年来，视觉-语言-动作（VLA）模型的研究迅速增长。虽然其中一些模型侧重于检测、预防和从任务失败中恢复，但它们通常不处理适应机器人自身的物理故障。在实际场景中，大多数机器人面临各种物理退化，例如关节退化、执行器故障或夹爪无力。本文提出了一种故障感知（健康状态调节）的VLA模型，该模型将健康向量作为输入，提供有关机器人关节的操作角度和扭矩能力的信息，并调整其预测以完成退化关节的任务。为了实现这一目标，我们将一个健康状态投影模块注入到VLA-Adapter架构中，并在LIBERO环境中收集的故障机器人数据上对其进行训练。我们在Libero-Spatial任务上收集了128个远程操作片段。结果表明，通过非常轻量级的添加，该模型可以学习在不同配置的退化关节下成功运行，而默认的预训练VLA-Adapter的Libero-Spatial-Pro模型无法做到这一点。代码和数据集即将发布在https://github.com/h-arslan/health-aware-vla。

🔬 方法详解

问题定义：现有VLA模型在机器人控制任务中，通常假设机器人处于理想的健康状态。然而，在实际应用中，机器人会面临各种物理退化，例如关节磨损、执行器故障等。这些退化会影响机器人的运动能力和任务执行效果，而现有VLA模型缺乏对这些退化的适应能力。因此，需要一种能够感知机器人健康状态并据此调整控制策略的VLA模型。

核心思路：论文的核心思路是将机器人的健康状态信息融入到VLA模型中，使模型能够根据机器人的健康状况调整其动作预测。具体来说，通过引入一个健康向量来表征机器人各个关节的健康状态，例如关节的操作角度和扭矩能力。然后，利用一个健康状态投影模块将健康向量映射到VLA模型的特征空间中，从而使模型能够感知机器人的健康状态。

技术框架：该模型基于VLA-Adapter架构，并在其基础上添加了一个健康状态投影模块。整体流程如下：首先，VLA-Adapter接收视觉和语言输入，提取视觉和语言特征。然后，健康状态投影模块接收健康向量，将其映射到与视觉和语言特征相同的特征空间。最后，将视觉、语言和健康状态特征融合，用于预测机器人的动作。

关键创新：该论文的关键创新在于提出了健康状态感知的VLA模型，该模型能够根据机器人的健康状态调整其动作预测。与现有VLA模型相比，该模型能够更好地适应机器人自身的物理退化，从而提高机器人在实际场景中的任务执行能力。

关键设计：健康状态投影模块的设计是关键。该模块可以使用各种神经网络结构实现，例如多层感知机（MLP）。健康向量的维度和具体数值需要根据机器人的具体情况进行设计。损失函数方面，可以使用标准的交叉熵损失函数或均方误差损失函数来训练模型。此外，还可以使用数据增强技术来提高模型的泛化能力，例如对健康向量进行随机扰动。

🖼️ 关键图片

📊 实验亮点

实验结果表明，所提出的健康状态感知的VLA模型能够显著提高机器人在退化关节下的任务完成率。与默认的预训练VLA-Adapter的Libero-Spatial-Pro模型相比，该模型能够成功适应不同配置的退化关节，并在Libero-Spatial任务上取得了显著的性能提升。具体的数据指标将在后续发布的论文和代码中提供。

🎯 应用场景

该研究成果可应用于各种需要机器人进行自主操作的场景，尤其是在机器人长期运行或工作环境恶劣的情况下。例如，在工业自动化领域，机器人可以根据自身的健康状况调整工作强度和维护计划，从而延长使用寿命并提高生产效率。在灾难救援领域，机器人可以适应恶劣环境下的物理损伤，继续执行救援任务。此外，该技术还可以用于开发更具鲁棒性和适应性的机器人控制系统。

📄 摘要（原文）

Research on Vision Language Action (VLA) models has been increasing rapidly in recent years. Although some of them focus on detecting, preventing, and recovering from task failures, they usually don't deal with adapting to robot's physical failures. In real-life scenarios, most robots face physical degradations in various ways such as joint degradation, actuator failure, or weak gripper. We introduce malfunction-aware (health-conditioned) VLA that takes a health vector as an input that gives information about robots' joints' operation angle and torque capability, and adapts its predictions to complete the tasks with the degraded joints. To achieve this, we inject a Health Projector module to the VLA-Adapter architecture and train it on malfunction robot data we collected on the LIBERO environment [1]. We collect 128 teleoperated episodes on Libero-Spatial tasks. Our results show that, with a very lightweight addition, the model can learn to operate successfully with different configurations of degraded joints which the default pretrained VLA-Adapter's Libero-Spatial-Pro model cannot. The code and dataset will be available soon at https://github.com/h-arslan/health-aware-vla

Health-Conditioned Vision-Language-Action Models for Malfunction-Aware Robot Control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理