LIBERO-Para: A Diagnostic Benchmark and Metrics for Paraphrase Robustness in VLA Models
作者: Chanyoung Kim, Minwoo Kim, Minseok Kang, Hyunwoo Kim, Dahuin Jung
分类: cs.LG
发布日期: 2026-03-30
备注: 32 pages, 28 figures
🔗 代码/项目: GITHUB
💡 一句话要点
LIBERO-Para:针对VLA模型,提出释义鲁棒性的诊断基准与评估指标。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言-动作模型 释义鲁棒性 机器人操作 基准测试 评估指标 语言泛化 语义理解
📋 核心要点
- VLA模型在机器人操作中表现出色,但微调数据有限,导致对指令释义的鲁棒性不足。
- LIBERO-Para基准通过独立改变动作和对象表达,细粒度分析VLA模型的语言泛化能力。
- 实验表明,释义导致VLA模型性能显著下降,主要原因是模型依赖表面匹配而非语义理解。
📝 摘要(中文)
视觉-语言-动作(VLA)模型通过利用预训练的视觉-语言骨干网络,在机器人操作任务中取得了显著的性能。然而,在下游机器人环境中,这些模型通常使用有限的数据进行微调,导致对特定指令形式的过拟合,并且对释义指令的鲁棒性研究不足。为了研究这一差距,我们引入了LIBERO-Para,这是一个受控的基准,它独立地改变动作表达和对象引用,以对语言泛化进行细粒度分析。在七种VLA配置(0.6B-7.5B)中,我们观察到在释义下性能持续下降22-52个百分点。这种下降主要由对象级别的词汇变化驱动:即使是简单的同义词替换也会导致大幅下降,表明模型依赖于表面级别的匹配,而不是语义理解。此外,80-96%的失败源于规划级别的轨迹发散,而不是执行错误,表明释义会扰乱任务识别。二元成功率平等地对待所有释义,掩盖了模型在不同难度级别上是否表现一致,或者是否依赖于更容易的情况。为了解决这个问题,我们提出了PRIDE,一种使用语义和句法因素量化释义难度的指标。我们的基准和相应的代码可在以下网址获得:https://github.com/cau-hai-lab/LIBERO-Para
🔬 方法详解
问题定义:现有VLA模型在机器人操作任务中,虽然表现出一定的能力,但对指令的释义鲁棒性较差。当使用不同的表达方式描述相同的动作或对象时,模型的性能会显著下降。现有方法缺乏对这种释义鲁棒性的系统性评估和改进,导致模型在实际应用中泛化能力受限。
核心思路:论文的核心思路是构建一个受控的基准测试环境,即LIBERO-Para,通过系统性地改变指令中的动作表达和对象引用,来评估VLA模型对释义的鲁棒性。同时,提出一种新的评估指标PRIDE,该指标能够量化释义的难度,从而更细粒度地分析模型的性能表现。这样设计的目的是为了更全面地了解VLA模型在面对不同类型的语言变化时的表现,并为未来的模型改进提供指导。
技术框架:LIBERO-Para基准主要包含以下几个部分:1)任务场景:选择具有代表性的机器人操作任务。2)指令集:针对每个任务,设计多个释义指令,这些指令在动作表达和对象引用上存在差异。3)VLA模型:选择多个不同规模和结构的VLA模型进行测试。4)评估指标:使用传统的二元成功率和新提出的PRIDE指标来评估模型的性能。整个流程是,首先将释义指令输入到VLA模型中,模型生成相应的动作序列,然后在机器人环境中执行这些动作,最后根据执行结果计算成功率和PRIDE值。
关键创新:论文的关键创新点在于:1)提出了LIBERO-Para基准,这是一个专门用于评估VLA模型释义鲁棒性的基准,填补了该领域的空白。2)提出了PRIDE指标,该指标能够量化释义的难度,从而更细粒度地分析模型的性能。3)通过实验发现,VLA模型对对象级别的词汇变化非常敏感,表明模型依赖于表面匹配而非语义理解。
关键设计:LIBERO-Para基准的关键设计包括:1)独立控制动作表达和对象引用,以便进行细粒度分析。2)使用多种释义方式,包括同义词替换、句法结构改变等,以覆盖不同的语言变化。3)PRIDE指标的关键设计在于,它综合考虑了语义和句法因素来量化释义的难度。具体来说,PRIDE指标可能涉及到计算词向量的相似度、句法树的距离等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在LIBERO-Para基准上,VLA模型在释义指令下的性能下降了22-52个百分点,表明模型对释义的鲁棒性较差。进一步分析发现,对象级别的词汇变化是导致性能下降的主要原因。此外,80-96%的失败源于规划级别的轨迹发散,而非执行错误,表明释义会扰乱任务识别。PRIDE指标能够更细粒度地评估模型的性能,揭示了模型在不同难度级别上的表现差异。
🎯 应用场景
该研究成果可应用于提升机器人操作的智能化水平,使机器人能够更好地理解和执行人类指令,即使指令存在一定的语言变化。这对于提高机器人在家庭服务、工业自动化等领域的应用价值具有重要意义。未来的研究可以基于此基准,开发更鲁棒的VLA模型,从而实现更自然、更可靠的人机交互。
📄 摘要(原文)
Vision-Language-Action (VLA) models achieve strong performance in robotic manipulation by leveraging pre-trained vision-language backbones. However, in downstream robotic settings, they are typically fine-tuned with limited data, leading to overfitting to specific instruction formulations and leaving robustness to paraphrased instructions underexplored. To study this gap, we introduce LIBERO-Para, a controlled benchmark that independently varies action expressions and object references for fine-grained analysis of linguistic generalization. Across seven VLA configurations (0.6B-7.5B), we observe consistent performance degradation of 22-52 pp under paraphrasing. This degradation is primarily driven by object-level lexical variation: even simple synonym substitutions cause large drops, indicating reliance on surface-level matching rather than semantic grounding. Moreover, 80-96% of failures arise from planning-level trajectory divergence rather than execution errors, showing that paraphrasing disrupts task identification. Binary success rate treats all paraphrases equally, obscuring whether models perform consistently across difficulty levels or rely on easier cases. To address this, we propose PRIDE, a metric that quantifies paraphrase difficulty using semantic and syntactic factors. Our benchmark and corresponding code are available at: https://github.com/cau-hai-lab/LIBERO-Para