From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models

作者: Zhuofan Li, Hongkun Yang, Zhenyang Chen, Yangxuan Chen, Yingyan, Lin, Chaojian Li

分类: cs.LG, cs.RO

发布日期: 2026-03-19

💡 一句话要点

重新审视VLA模型的效率指标，关注具身智能的系统级效率

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 具身智能 视觉-语言-动作模型 效率评估 机器人控制 系统级指标

📋 核心要点

现有VLA研究过度依赖参数量等传统指标评估效率，忽略了机器人平台上的实际执行效率。
论文提出关注系统级的具身效率指标，如任务完成时间、轨迹平滑度等，以更全面地评估VLA模型。
实验表明，优化传统指标的方法可能损害具身效率，而常见适应方法在提升具身效率方面效果有限。

📝 摘要（中文）

视觉-语言-动作(VLA)模型使具身智能体能够通过联合推理视觉、语言和运动模态来执行日益复杂的任务。然而，我们发现当前VLA研究中流行的“效率”概念，以参数量、FLOPs或token解码吞吐量为特征，并不能反映机器人平台上的实际性能。在真实世界的执行中，效率取决于系统级的具身行为，例如任务完成时间、轨迹平滑度、累积关节旋转和运动能量。通过对模型压缩、token稀疏化和动作序列压缩的受控研究，我们提出了一些挑战常见假设的观察结果。(1)在传统指标下减少计算的方法通常会增加端到端执行成本或降低运动质量，尽管保持了任务成功率。(2)系统级的具身效率指标揭示了在传统评估下仍然隐藏的学习动作策略的性能差异。(3)诸如上下文提示或监督微调之类的常见适应方法在具身效率方面仅显示出轻微且特定于指标的改进。虽然这些方法可以减少目标具身效率指标，例如急动或动作速率，但由此产生的收益可能伴随着其他指标的权衡，例如更长的完成时间。总而言之，我们的结果表明，传统的推理效率指标可能会忽略具身执行的重要方面。结合具身效率可以更完整地了解策略行为和实际性能，从而可以对VLA模型进行更公平和更全面的比较。

🔬 方法详解

问题定义：现有VLA模型的研究通常使用参数量、FLOPs等传统指标来衡量效率，这些指标并不能很好地反映模型在真实机器人平台上的表现。例如，一个参数量较小的模型，在实际执行任务时，可能由于动作不流畅或者路径规划不合理，导致任务完成时间更长，能量消耗更高。因此，需要一种更贴近实际应用的效率评估方法。

核心思路：论文的核心思路是引入系统级的具身效率指标，从任务完成时间、轨迹平滑度、累积关节旋转和运动能量等多个维度来评估VLA模型的效率。这些指标能够更全面地反映模型在真实环境中的表现，避免了传统指标的片面性。

技术框架：论文通过对VLA模型进行模型压缩、token稀疏化和动作序列压缩等操作，然后分别使用传统指标和具身效率指标进行评估。通过对比两种评估方式的结果，揭示了传统指标的局限性，并验证了具身效率指标的有效性。同时，论文还研究了上下文提示和监督微调等方法对具身效率的影响。

关键创新：论文最重要的创新在于提出了系统级的具身效率评估方法，弥补了传统效率评估方法的不足。这种方法能够更准确地反映VLA模型在真实环境中的性能，为VLA模型的设计和优化提供了新的思路。

关键设计：论文中使用的具身效率指标包括：任务完成时间（衡量任务执行速度）、轨迹平滑度（衡量动作的流畅性）、累积关节旋转（衡量动作幅度）和运动能量（衡量能量消耗）。这些指标的选择考虑了机器人平台的实际约束和性能需求。论文还设计了受控实验，通过改变模型结构和训练方式，来观察不同指标之间的trade-off关系。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在传统指标下表现良好的模型，在具身效率指标下可能表现不佳。例如，某些模型压缩方法虽然降低了FLOPs，但却增加了任务完成时间或降低了轨迹平滑度。此外，上下文提示和监督微调等方法在提升具身效率方面效果有限，且可能导致不同指标之间的trade-off。这些结果强调了使用具身效率指标的重要性。

🎯 应用场景

该研究成果可应用于机器人控制、自动驾驶、智能制造等领域。通过更准确地评估VLA模型的效率，可以设计出更高效、更可靠的机器人系统，从而提高生产效率，降低能源消耗，并改善用户体验。未来，该研究可以进一步扩展到更复杂的具身智能任务中，例如人机协作、复杂环境导航等。

📄 摘要（原文）

Vision-Language-Action (VLA) models have recently enabled embodied agents to perform increasingly complex tasks by jointly reasoning over visual, linguistic, and motor modalities. However, we find that the prevailing notion of ``efficiency'' in current VLA research, characterized by parameters, FLOPs, or token decoding throughput, does not reflect actual performance on robotic platforms. In real-world execution, efficiency is determined by system-level embodied behaviors such as task completion time, trajectory smoothness, cumulative joint rotation, and motion energy. Through controlled studies across model compression, token sparsification, and action sequence compression, we make several observations that challenge common assumptions. (1) Methods that reduce computation under conventional metrics often increase end-to-end execution cost or degrade motion quality, despite maintaining task success rates. (2) System-level embodied efficiency metrics reveal performance differences in the learned action policies that remain hidden under conventional evaluations. (3) Common adaptation methods such as in-context prompting or supervised fine-tuning show only mild and metric-specific improvements in embodied efficiency. While these methods can reduce targeted embodied-efficiency metrics such as jerk or action rate, the resulting gains may come with trade-offs in other metrics, such as longer completion time. Taken together, our results suggest that conventional inference efficiency metrics can overlook important aspects of embodied execution. Incorporating embodied efficiency provides a more complete view of policy behavior and practical performance, enabling fairer and more comprehensive comparisons of VLA models.

From Inference Efficiency to Embodied Efficiency: Revisiting Efficiency Metrics for Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理