Driving Through the Network: Performance and Workload Under Latency and Video Impairment

📄 arXiv: 2605.15952v1 📥 PDF

作者: Ines Trautmannsheimer, Ahmed Azab, Frank Diermeyer

分类: cs.HC, cs.RO

发布日期: 2026-05-15

备注: Preprint of VEHITS 2026 : 12th International Conference on Vehicle Technology and Intelligent Transport Systems


💡 一句话要点

研究网络延迟和视频质量对远程驾驶性能与工作负荷的影响

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 远程驾驶 网络延迟 视频质量 驾驶模拟器 生理指标

📋 核心要点

  1. 远程驾驶依赖于网络,但网络延迟和视频质量会严重影响驾驶员的操控和安全性。
  2. 通过驾驶模拟器实验,研究不同延迟和码率组合下驾驶员的性能、生理反应和主观感受。
  3. 实验结果表明,延迟和码率均会增加驾驶员负荷,生理指标能有效预测超负荷状态。

📝 摘要(中文)

本文研究了网络延迟和视频质量对远程驾驶的影响。通过驾驶模拟器实验(N=25),操纵了延迟(100/300毫秒)和码率(500/2000千比特/秒)两个因素,并设置了最佳基线(0毫秒延迟,9000千比特/秒)。测量了各条件下的端到端延迟(基线约413毫秒;总计约500-700毫秒),并验证了稳定的帧率和编码器设置。多模态测量涵盖了性能(速度、转向反转次数、碰撞次数)、眼动行为(眨眼率、注视持续时间)、生理指标(RR间期、心率、皮肤电导)和主观工作负荷。延迟和码率均增加了操作员的负荷,并对性能产生了一定影响。生理指标(心率、RR间期)表现出亚加性交互作用,而性能和眼动交互作用较小或不显著。等效性测试表明,300毫秒延迟和2000千比特/秒码率的速度等效于最佳情况(SESOI +/- 2公里/小时),而300毫秒延迟和500千比特/秒码率则不然。研究表明,延迟和视频质量应被视为基本独立的控制因素,并且生理感知自适应可以在安全性受到损害之前预测超负荷。

🔬 方法详解

问题定义:远程驾驶系统的性能受到网络延迟和视频质量的显著影响。现有的远程驾驶系统在设计时,往往难以兼顾低延迟和高质量视频传输,导致驾驶员操作困难,甚至引发安全问题。因此,需要深入研究延迟和视频质量对驾驶员的影响,以便更好地设计远程驾驶系统。

核心思路:本文的核心思路是通过系统性的实验,量化网络延迟和视频质量对驾驶员性能、生理反应和主观感受的影响。通过操纵延迟和码率两个关键因素,并结合多模态数据分析,揭示它们之间的交互作用,从而为远程驾驶系统的设计提供指导。

技术框架:该研究采用固定基座驾驶模拟器,招募了25名参与者。实验中,操纵了两个自变量:网络延迟(100毫秒、300毫秒)和视频码率(500千比特/秒、2000千比特/秒),并设置了一个最佳情况基线(0毫秒延迟,9000千比特/秒)。测量了端到端延迟、帧率和编码器设置。收集了多模态数据,包括驾驶性能指标(速度、转向反转次数、碰撞次数)、眼动行为指标(眨眼率、注视持续时间)、生理指标(RR间期、心率、皮肤电导)和主观工作负荷评分。

关键创新:该研究的关键创新在于同时考虑了网络延迟和视频质量对远程驾驶的影响,并采用多模态数据分析方法,综合评估了驾驶员的性能、生理反应和主观感受。此外,研究还发现了延迟和码率之间的亚加性交互作用,以及生理指标在预测超负荷状态方面的潜力。与现有方法相比,该研究更全面地评估了远程驾驶系统的性能,并为系统设计提供了更细致的指导。

关键设计:实验中,延迟和码率的设置是关键。延迟设置为100毫秒和300毫秒,旨在模拟不同的网络状况。码率设置为500千比特/秒和2000千比特/秒,旨在模拟不同的视频质量。最佳情况基线用于评估理想情况下的驾驶性能。此外,多模态数据的采集和分析也是关键设计,通过综合评估驾驶员的性能、生理反应和主观感受,可以更全面地了解延迟和视频质量的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,延迟和码率均会增加驾驶员的负荷,并对驾驶性能产生一定影响。具体而言,300毫秒延迟和2000千比特/秒码率的速度等效于最佳情况(SESOI +/- 2公里/小时),而300毫秒延迟和500千比特/秒码率则不然。生理指标(心率、RR间期)表现出亚加性交互作用,表明它们可以用于预测驾驶员的超负荷状态。

🎯 应用场景

该研究成果可应用于各种远程驾驶场景,例如远程控制车辆、无人机和机器人等。通过优化网络延迟和视频质量,可以提高远程驾驶的安全性、效率和用户体验。此外,生理感知自适应技术可以根据驾驶员的生理状态动态调整系统参数,从而进一步提高远程驾驶的可靠性。

📄 摘要(原文)

Teleoperation promises to extend the operational envelope of automated vehicles, yet it critically depends on network latency and video quality. We report a fixed-base driving-simulator study (N=25) with a 2x2 manipulation of added latency (100/300 ms) and bitrate (500/2000 kbit/s), plus a best-case baseline (0 ms added, 9000 kbit/s). We measured effective glass-to-glass (G2G) latency per condition (baseline approx. 413 ms; effective totals approx. 500-700 ms) and verified stable framerate and encoder settings. Multimodal measures covered performance (speed, steering reversals, crashes), oculomotor behavior (blink rate, fixation duration), physiology (RR interval, heart rate, skin conductance), and subjective workload. Latency and bitrate each increased operator load and modestly affected performance. Physiological measures (heart rate, RR interval) exhibited sub-additive interactions, whereas performance and oculomotor interactions were small or non-significant. Equivalence tests showed that 300 ms with 2000 kbit/s was velocity-equivalent to best-case (SESOI +/- 2 km/h), while 300 ms with 500 kbit/s was not. We argue that latency and video quality should be treated as largely independent design levers, and that physiology-aware adaptation can anticipate overload before safety is compromised.