VEGA: Electric Vehicle Navigation Agent via Physics-Informed Neural Operator and Proximal Policy Optimization
作者: Hansol Lim, Minhyeok Im, Jonathan Boyack, Jee Won Lee, Jongseong Brad Choi
分类: cs.RO, cs.LG
发布日期: 2025-09-16
备注: This work has been submitted to the 2026 IEEE International Conference on Robotics and Automation (ICRA) for possible publication
💡 一句话要点
VEGA:基于物理信息神经算子和PPO的电动汽车导航代理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 电动汽车导航 强化学习 物理信息神经算子 路径规划 充电策略优化
📋 核心要点
- 现有电动汽车导航方法难以根据车辆自身状态和环境进行定制化的充电感知路径优化。
- VEGA利用物理信息神经算子学习车辆动力学,并结合强化学习进行充电策略优化,实现节能路径规划。
- 实验表明,VEGA在长途路线规划中与特斯拉行程规划器表现接近,并具有良好的泛化能力。
📝 摘要(中文)
随着软件定义汽车(SDV)的需求不断增长,电动汽车(EV)也越来越多地配备了强大的计算机。这使得车载AI系统能够优化充电感知的路径规划,并根据车辆的当前状态和环境进行定制。我们提出了VEGA,一种充电感知的电动汽车导航代理,它利用近端策略优化(PPO)和基于充电状态(SoC)可行性的预算A*师生指导,在带有充电桩标注的道路图上进行规划。VEGA由两个模块组成。首先,一个基于真实车辆速度和电池功率日志训练的物理信息神经算子(PINO),通过学习车辆定制的动力学,利用最近的车辆速度日志来估计空气动力阻力、滚动阻力、质量、电机和再生制动效率以及辅助负载。其次,一个强化学习(RL)代理使用这些动力学来优化具有最佳充电站和停留时间的路径,同时满足SoC约束。VEGA不需要额外的传感器,仅使用车辆速度信号。它可以作为功率和效率的虚拟传感器,从而可能降低电动汽车的成本。在旧金山到纽约等长途路线的评估中,VEGA的停靠站、停留时间、SoC管理和总行程时间与特斯拉行程规划器非常接近,但略微保守,这可能是由于车辆参数因老化而漂移等实际车辆状况所致。尽管仅在美国地区进行了训练,但VEGA能够在法国和日本计算出最佳的充电感知路径,证明了其泛化能力。它实现了物理信息学习和强化学习在电动汽车生态路径规划中的实际集成。
🔬 方法详解
问题定义:现有电动汽车导航系统通常依赖于预定义的能耗模型,无法准确反映车辆的实际状态(如老化、负载变化)和环境因素(如风阻、路况)。这导致导航系统提供的充电策略可能不是最优的,甚至可能导致车辆在途中耗尽电量。因此,需要一种能够根据车辆自身状态和环境进行自适应调整的充电感知路径规划方法。
核心思路:VEGA的核心思路是利用物理信息神经算子(PINO)学习车辆的动态模型,然后使用强化学习(RL)算法基于该模型优化充电策略。PINO能够从车辆的历史速度数据中提取关键的车辆参数和环境因素,从而建立一个更准确的能耗模型。RL算法则可以根据该模型,在满足充电状态(SoC)约束的条件下,找到最佳的充电站选择和停留时间,从而最小化总行程时间。
技术框架:VEGA包含两个主要模块:PINO模块和RL代理模块。首先,PINO模块接收车辆的速度日志作为输入,并输出车辆的动态参数估计,包括空气动力阻力、滚动阻力、质量、电机和再生制动效率以及辅助负载。然后,RL代理模块使用这些动态参数,结合道路图和充电桩信息,通过PPO算法优化充电策略。RL代理的目标是找到一条在满足SoC约束下,总行程时间最短的路径。该框架还使用了Budgeted A*算法作为教师,指导RL代理的训练,加速收敛并提高性能。
关键创新:VEGA的关键创新在于将物理信息学习和强化学习相结合,用于电动汽车的生态路径规划。传统的电动汽车导航系统通常依赖于简化的能耗模型,而VEGA通过PINO学习车辆的动态模型,从而能够更准确地预测能耗。此外,VEGA使用RL算法优化充电策略,而不是使用预定义的规则,从而能够找到更优的充电方案。
关键设计:PINO的网络结构未知,但其损失函数应该包含物理信息约束,例如能量守恒定律。RL代理使用PPO算法进行训练,奖励函数的设计需要平衡行程时间和充电成本。Budgeted A*算法用于生成训练数据,其预算参数需要根据实际情况进行调整。具体参数设置在论文中可能没有详细说明,属于未知信息。
📊 实验亮点
VEGA在长途路线(如旧金山到纽约)上的实验结果表明,其充电策略与特斯拉行程规划器非常接近,但在SoC管理方面略微保守。VEGA还展示了良好的泛化能力,能够在未训练过的地区(如法国和日本)计算出合理的充电感知路径。这些结果表明,VEGA是一种有效的电动汽车生态路径规划方法。
🎯 应用场景
VEGA可应用于电动汽车的车载导航系统,为驾驶员提供更智能、更节能的路径规划方案。通过优化充电策略,VEGA可以减少电动汽车的里程焦虑,提高出行效率。此外,VEGA还可以作为一种虚拟传感器,为电动汽车的电池管理系统提供更准确的能耗估计,从而延长电池寿命。该技术还有潜力应用于其他类型的车辆,例如混合动力汽车和燃料电池汽车。
📄 摘要(原文)
Demands for software-defined vehicles (SDV) are rising and electric vehicles (EVs) are increasingly being equipped with powerful computers. This enables onboard AI systems to optimize charge-aware path optimization customized to reflect vehicle's current condition and environment. We present VEGA, a charge-aware EV navigation agent that plans over a charger-annotated road graph using Proximal Policy Optimization (PPO) with budgeted A* teacher-student guidance under state-of-charge (SoC) feasibility. VEGA consists of two modules. First, a physics-informed neural operator (PINO), trained on real vehicle speed and battery-power logs, uses recent vehicle speed logs to estimate aerodynamic drag, rolling resistance, mass, motor and regenerative-braking efficiencies, and auxiliary load by learning a vehicle-custom dynamics. Second, a Reinforcement Learning (RL) agent uses these dynamics to optimize a path with optimal charging stops and dwell times under SoC constraints. VEGA requires no additional sensors and uses only vehicle speed signals. It may serve as a virtual sensor for power and efficiency to potentially reduce EV cost. In evaluation on long routes like San Francisco to New York, VEGA's stops, dwell times, SoC management, and total travel time closely track Tesla Trip Planner while being slightly more conservative, presumably due to real vehicle conditions such as vehicle parameter drift due to deterioration. Although trained only in U.S. regions, VEGA was able to compute optimal charge-aware paths in France and Japan, demonstrating generalizability. It achieves practical integration of physics-informed learning and RL for EV eco-routing.