Beyond VMAF: Towards Application-Specific Metrics for Teleoperation Video

📄 arXiv: 2605.13525v1 📥 PDF

作者: Ines Trautmannsheimer, Richard Grauberger, Frank Diermeyer

分类: cs.HC, cs.RO

发布日期: 2026-05-13

备注: Preprint ITSC 2026


💡 一句话要点

针对远程操控视频,提出领域自适应的VMAF质量评估指标

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 视频质量评估 VMAF 远程操控 领域自适应 主观质量评价

📋 核心要点

  1. 远程操控场景下,视频质量对操作员的任务执行和安全性至关重要,但通用视频质量评估指标可能无法准确反映领域需求。
  2. 论文提出了一种领域自适应的VMAF模型,通过在远程操控视频数据集上进行微调,使其更符合人类对该场景下视频质量的感知。
  3. 实验结果表明,该方法在远程操控视频质量评估任务上,相比原始VMAF模型,RMSE降低15%,MAD降低27%,显著提升了评估精度。

📝 摘要(中文)

自动驾驶取得了显著进展,但仍存在需要人工干预的情况。远程操控提供了一种可扩展的解决方案,使远程操作员无需亲临现场即可支持车辆。在此背景下,视频传输构成了操作员情境感知的首要来源,使得视频质量成为安全和任务性能的决定性因素。在一项在线研究中,参与者对来自Zenseact数据集的压缩视频序列进行了评估,并提供了主观质量评分。这些评分随后被用于重新训练视频多方法评估融合(VMAF)模型,从而产生了一种针对远程操控定制的自适应变体。与原始4K VMAF相比,重新训练的模型表现出与人类评分更好的对齐。特别是,RMSE从10.36降低到8.83,MAD从8.71降低到6.38,分别对应于15%和27%的改进。这些结果表明,在安全关键型应用中,结合特定领域的数据可以增强已建立的质量指标的预测能力。同时,也出现了异常情况,即某些视频尽管在驾驶任务的关键区域存在明显的退化,但仍获得了较高的客观评分。

🔬 方法详解

问题定义:论文旨在解决远程操控场景下,通用视频质量评估指标(如VMAF)无法准确反映人类对视频质量感知的难题。现有方法在评估远程操控视频时,可能对驾驶任务关键区域的质量退化不敏感,导致评估结果与实际体验不符。

核心思路:论文的核心思路是利用特定领域的视频数据(即远程操控视频)对现有的VMAF模型进行微调,使其能够更好地适应远程操控场景的特点,从而提高视频质量评估的准确性。通过让人类专家对远程操控视频进行主观质量评分,并将这些评分作为训练数据,可以使模型学习到更符合人类感知的质量评估标准。

技术框架:论文的技术框架主要包括以下几个步骤:1)收集远程操控视频数据集;2)邀请人类专家对视频进行主观质量评分;3)使用主观评分数据对VMAF模型进行微调;4)评估微调后的VMAF模型在远程操控视频质量评估任务上的性能。整个流程旨在通过领域自适应的方式,提升VMAF模型在特定场景下的评估能力。

关键创新:论文的关键创新在于将领域自适应的思想应用于视频质量评估任务,并成功地将通用的VMAF模型调整为适用于远程操控场景的特定模型。这种方法可以有效地利用领域知识,提高视频质量评估的准确性,从而为远程操控系统的优化提供更好的支持。

关键设计:论文的关键设计包括:1)使用Zenseact数据集作为远程操控视频的来源;2)采用在线调查的方式收集人类的主观质量评分;3)使用RMSE和MAD作为评估指标,衡量模型预测结果与人类评分之间的差异;4)通过实验验证了领域自适应的VMAF模型在远程操控视频质量评估任务上的有效性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,经过远程操控视频数据微调后的VMAF模型,在评估远程操控视频质量时,与人类主观评分的对齐程度显著提高。具体而言,RMSE从10.36降低到8.83,降低了15%;MAD从8.71降低到6.38,降低了27%。这表明领域自适应的方法能够有效提升视频质量评估的准确性。

🎯 应用场景

该研究成果可应用于远程操控、远程医疗、游戏直播等对视频质量有较高要求的领域。通过领域自适应的视频质量评估,可以优化视频编码参数,提升用户体验,并为安全关键型应用提供更可靠的保障。未来,该方法可以推广到其他特定领域的视频质量评估,例如水下机器人、太空探索等。

📄 摘要(原文)

Automated driving has made remarkable progress, yet situations still arise where human intervention is necessary. Teleoperation provides a scalable solution to address such cases, enabling remote operators to support vehicles without being physically present. In this context, video transmission forms the operator's primary source of situational awareness, making video quality a decisive factor for both safety and task performance. In an online study, participants rated compressed video sequences from the Zenseact Dataset and provided subjective quality ratings. These ratings were then used to retrain the Video Multi-Method Assessment Fusion (VMAF) model, yielding an adapted variant tailored to teleoperation. The retrained model demonstrated improved alignment with human ratings compared to the original 4K VMAF. In particular, RMSE decreased from 10.36 to 8.83, and MAD from 8.71 to 6.38, corresponding to improvements of 15% and 27%, respectively. These results highlight that incorporating domain-specific data can enhance the predictive power of established quality metrics in safety-critical applications. At the same time, Outlier cases emerged in which videos received high objective scores despite noticeable degradations in regions critical for the driving task.