Pre-VLA: Preemptive Runtime Verification for Reliable Vision-Language-Action and World-Model Rollouts
作者: Zhen Sun, Yongjian Guo, Haoran Sun, Luqiao Wang, Wei Lu, Jiachi Ji, Shengzhe Ji, Junwu Xiong, Zhijun Meng
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-05-21
💡 一句话要点
Pre-VLA:面向VLA模型和世界模型的可靠性,提出抢占式运行时验证架构。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 运行时验证 视觉-语言-动作模型 世界模型 具身智能 抢占式重采样
📋 核心要点
- VLA模型和世界模型面临动作生成不确定性带来的挑战,可能导致物理失败或误导性推演。
- Pre-VLA通过运行时验证,在执行前评估动作有效性,过滤低质量动作并自适应重采样。
- 实验表明,Pre-VLA提升了闭环成功率,减少了执行步骤,并减轻了世界模型推演中的误差累积。
📝 摘要(中文)
大型视觉-语言-动作(VLA)模型和生成式世界模型(WM)在长时程具身智能方面取得了进展,但学习型动作生成的不确定性仍然是实际部署的挑战。低质量的动作可能导致执行期间的物理故障,或导致具有冗余渲染成本的误导性世界模型推演。为了解决这个问题,我们提出了Pre-VLA,一种统一的运行时验证架构,在物理执行或世界模型想象之前执行抢占式动作有效性评估。Pre-VLA利用高效的多模态骨干网络,结合模态感知池化和一个轻量级的双分支头,来预测候选动作块的安全置信度和评论家导出的优势分数。为了处理严重的类别不平衡和不稳定的边界决策,我们使用多任务目标训练Pre-VLA,该目标结合了Focal分类、优势回归和软阈值校准。在部署期间,双模抢占式重采样调度器过滤低质量的动作,并在有限的计算预算下触发自适应重采样。在LIBERO基准测试上的实验表明,Pre-VLA在四个套件上的平均闭环成功率从RynnVLA-002的30.79%提高到37.62%,减少了任务执行步骤,实现了每个动作块183.9毫秒的平均前向验证时间,并减轻了世界模型推演中的误差累积。
🔬 方法详解
问题定义:现有的大型视觉-语言-动作模型(VLA)和生成式世界模型(WM)在长时程具身智能任务中,由于学习型动作生成的不确定性,容易产生低质量的动作。这些低质量的动作可能导致实际执行中的物理失败,或者在世界模型推演中产生误导性的结果,并带来不必要的计算开销。因此,如何提高VLA模型和世界模型在实际部署中的可靠性是一个关键问题。
核心思路:Pre-VLA的核心思路是在动作执行或世界模型推演之前,对候选动作进行抢占式的有效性评估。通过预测动作的安全置信度和优势分数,Pre-VLA能够识别并过滤掉低质量的动作,从而避免潜在的物理失败或误导性推演。这种方法类似于安全机制中的“预警”系统,能够在问题发生之前进行干预。
技术框架:Pre-VLA的整体架构包含以下几个主要模块:1) 多模态骨干网络:用于提取视觉和语言信息的特征表示。2) 模态感知池化:用于融合不同模态的特征。3) 双分支头部:用于预测动作的安全置信度和优势分数。4) 抢占式重采样调度器:用于根据预测结果过滤低质量动作并触发自适应重采样。整个流程是,首先通过多模态骨干网络提取特征,然后通过模态感知池化进行融合,接着通过双分支头部预测动作的质量,最后通过抢占式重采样调度器进行动作过滤和重采样。
关键创新:Pre-VLA的关键创新在于其统一的运行时验证架构,该架构能够同时评估动作的安全性和优势,并根据评估结果进行抢占式的干预。与传统的后验式验证方法不同,Pre-VLA能够在问题发生之前就进行预防,从而提高了系统的可靠性。此外,Pre-VLA还采用了多任务学习方法,结合了Focal分类、优势回归和软阈值校准,以解决类别不平衡和边界决策不稳定的问题。
关键设计:Pre-VLA的关键设计包括:1) 多模态骨干网络的选择,需要能够高效地提取视觉和语言信息。2) 模态感知池化的设计,需要能够有效地融合不同模态的特征。3) 双分支头部的设计,需要能够准确地预测动作的安全置信度和优势分数。4) 损失函数的设计,采用了多任务学习方法,结合了Focal分类、优势回归和软阈值校准。5) 抢占式重采样调度器的设计,需要在有限的计算预算下,平衡动作过滤和重采样的效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Pre-VLA在LIBERO基准测试的四个套件上,相较于RynnVLA-002,平均闭环成功率从30.79%提升至37.62%。同时,Pre-VLA还减少了任务执行步骤,并实现了每个动作块183.9毫秒的平均前向验证时间。这些数据表明,Pre-VLA能够在保证实时性的前提下,显著提高VLA模型和世界模型的可靠性。
🎯 应用场景
Pre-VLA技术可应用于各种需要高可靠性的具身智能任务中,例如机器人导航、自动驾驶、智能制造等。通过在动作执行前进行验证,可以有效避免潜在的物理损坏和安全风险,提高系统的稳定性和安全性。此外,该技术还可以应用于虚拟环境中的模拟和训练,减少不必要的计算开销,提高训练效率。未来,Pre-VLA有望成为具身智能系统中的关键组成部分。
📄 摘要(原文)
While large vision-language-action (VLA) models and generative world models (WM) have advanced long-horizon embodied intelligence, their practical deployment remains challenged by uncertainty in learning-based action generation. Low-quality actions may cause physical failures during execution or lead to misleading world-model rollouts with redundant rendering costs. To address this issue, we propose Pre-VLA, a unified runtime verification architecture that performs preemptive action validity assessment before physical execution or world-model imagination. Pre-VLA leverages an efficient multimodal backbone with modality-aware pooling and a lightweight dual-branch head to predict both safety confidence and critic-derived advantage scores for candidate action chunks. To handle severe class imbalance and unstable boundary decisions, we train Pre-VLA with a multi-task objective combining Focal classification, advantage regression, and soft-threshold calibration. During deployment, a dual-mode preemptive resampling scheduler filters low-quality actions and triggers adaptive resampling under a limited computation budget. Experiments on the LIBERO benchmark show that Pre-VLA improves the average closed-loop success rate across four suites from 30.79\% to 37.62\% over RynnVLA-002, reduces task execution steps, achieves 183.9 ms average forward verification time per action chunk, and mitigates error accumulation in world-model rollouts.