VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization
作者: Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi
分类: cs.RO, cs.LG
发布日期: 2025-09-16
备注: This work has been submitted to the 2026 IEEE International Conference on Robotics and Automation (ICRA) for possible publication
💡 一句话要点
VEGA:基于物理信息神经算子和近端策略优化的电动汽车导航代理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 电动汽车导航 充电感知路径规划 物理信息神经网络 强化学习 近端策略优化 车辆动力学建模 能源效率优化
📋 核心要点
- 现有电动汽车导航缺乏对车辆自身状态和环境的精细感知,难以进行个性化的充电优化路径规划。
- VEGA利用物理信息神经算子学习车辆动力学参数,并结合强化学习进行充电策略优化,实现充电感知的路径规划。
- 实验表明,VEGA在长途路线规划中与特斯拉行程规划器表现接近,并具有良好的泛化能力,可应用于不同地区。
📝 摘要(中文)
随着软件定义汽车(SDV)需求的增长,电动汽车(EV)配备了越来越强大的计算机。这使得车载AI系统能够优化充电感知的路径规划,并根据车辆的当前状态和环境进行定制。我们提出了VEGA,一种充电感知的电动汽车导航代理,它使用近端策略优化(PPO)在充电桩标注的道路图上进行规划,并在荷电状态(SoC)可行性下,利用预算A*算法进行师生指导。VEGA由两个模块组成。首先,一个基于真实车辆速度和电池功率日志训练的物理信息神经算子(PINO),通过学习车辆定制的动力学,使用最近的车辆速度日志来估计空气动力阻力、滚动阻力、质量、电机和再生制动效率以及辅助负载。其次,一个强化学习(RL)代理使用这些动力学来优化具有最佳充电站和停留时间的路径,同时满足SoC约束。VEGA不需要额外的传感器,仅使用车辆速度信号。它可以作为功率和效率的虚拟传感器,从而可能降低电动汽车的成本。在旧金山到纽约等长途路线的评估中,VEGA的停靠站、停留时间、SoC管理和总行程时间与特斯拉行程规划器非常接近,但略微保守,这可能是由于实际车辆状况(例如车辆参数因老化而漂移)所致。虽然仅在美国地区训练,但VEGA能够在法国和日本计算出最佳的充电感知路径,证明了其泛化能力。它实现了物理信息学习和强化学习在电动汽车生态路线规划中的实际集成。
🔬 方法详解
问题定义:电动汽车导航需要考虑充电问题,传统的导航算法通常使用固定的能耗模型,无法根据车辆的实际状态(如车辆老化、载重变化)和环境(如风阻、路况)进行优化,导致充电规划不准确,影响行程时间和便利性。现有方法缺乏对车辆自身动力学特性的学习和利用。
核心思路:VEGA的核心思路是利用物理信息神经网络(PINO)学习车辆的动力学模型,从而更准确地估计车辆的能耗。然后,使用强化学习(RL)算法,基于学习到的动力学模型,优化充电策略,包括充电站的选择和停留时间,以最小化总行程时间,同时满足电池荷电状态(SoC)的约束。
技术框架:VEGA包含两个主要模块:1) 物理信息神经算子(PINO):该模块使用车辆的速度日志作为输入,学习车辆的动力学参数,包括空气动力阻力、滚动阻力、质量、电机和再生制动效率以及辅助负载。PINO通过最小化物理定律的残差和实际能耗数据的误差进行训练。2) 强化学习(RL)代理:该模块使用PINO学习到的动力学模型作为环境模型,使用近端策略优化(PPO)算法训练一个策略,该策略决定在每个路口是否需要充电以及充电站的选择和停留时间。RL代理的目标是最小化总行程时间,同时保证SoC始终在安全范围内。
关键创新:VEGA的关键创新在于将物理信息学习和强化学习相结合,用于电动汽车的充电感知路径规划。传统的RL方法需要大量的环境交互才能学习到有效的策略,而VEGA通过PINO预先学习车辆的动力学模型,从而减少了RL的学习时间和样本复杂度。此外,VEGA不需要额外的传感器,仅使用车辆的速度信号,降低了成本。
关键设计:PINO的网络结构未知,但其损失函数包含两部分:一是物理定律的残差,例如能量守恒定律;二是实际能耗数据的误差。RL代理使用PPO算法,奖励函数设计为总行程时间的负值,并对SoC超出安全范围的情况进行惩罚。具体参数设置未知。
📊 实验亮点
VEGA在长途路线(如旧金山到纽约)上的实验结果表明,其充电策略与特斯拉行程规划器非常接近,但在某些情况下更为保守,这可能是由于VEGA考虑了实际车辆的状况。VEGA还展示了良好的泛化能力,能够在未训练过的地区(如法国和日本)进行有效的充电规划。具体性能提升数据未知。
🎯 应用场景
VEGA可应用于电动汽车的车载导航系统,为用户提供更准确、更个性化的充电规划。它还可以作为功率和效率的虚拟传感器,用于车辆状态监测和故障诊断。此外,该方法可以推广到其他类型的车辆和交通工具,用于优化能源效率和降低排放。
📄 摘要(原文)
Demands for software-defined vehicles (SDV) are rising and electric vehicles (EVs) are increasingly being equipped with powerful computers. This enables onboard AI systems to optimize charge-aware path optimization customized to reflect vehicle's current condition and environment. We present VEGA, a charge-aware EV navigation agent that plans over a charger-annotated road graph using Proximal Policy Optimization (PPO) with budgeted A* teacher-student guidance under state-of-charge (SoC) feasibility. VEGA consists of two modules. First, a physics-informed neural operator (PINO), trained on real vehicle speed and battery-power logs, uses recent vehicle speed logs to estimate aerodynamic drag, rolling resistance, mass, motor and regenerative-braking efficiencies, and auxiliary load by learning a vehicle-custom dynamics. Second, a Reinforcement Learning (RL) agent uses these dynamics to optimize a path with optimal charging stops and dwell times under SoC constraints. VEGA requires no additional sensors and uses only vehicle speed signals. It may serve as a virtual sensor for power and efficiency to potentially reduce EV cost. In evaluation on long routes like San Francisco to New York, VEGA's stops, dwell times, SoC management, and total travel time closely track Tesla Trip Planner while being slightly more conservative, presumably due to real vehicle conditions such as vehicle parameter drift due to deterioration. Although trained only in U.S. regions, VEGA was able to compute optimal charge-aware paths in France and Japan, demonstrating generalizability. It achieves practical integration of physics-informed learning and RL for EV eco-routing.