Eyes Will Shut: A Vision-Based Next GPS Location Prediction Model by Reinforcement Learning from Visual Map Feed Back

📄 arXiv: 2507.18661v3 📥 PDF

作者: Ruixing Zhang, Yang Zhang, Tongyu Zhu, Leilei Sun, Weifeng Lv

分类: cs.CV, cs.RO

发布日期: 2025-07-23 (更新: 2025-08-04)


💡 一句话要点

提出基于视觉地图反馈强化学习的下一GPS位置预测模型VLMLocPredictor

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 下一位置预测 视觉-语言模型 强化学习 视觉推理 轨迹预测

📋 核心要点

  1. 现有下一位置预测模型缺乏像人类一样基于地图进行推理的能力,限制了其性能。
  2. 利用视觉-语言模型(VLM)的视觉推理能力,将道路网络和轨迹渲染成图像,使模型能够以类似人类的方式进行轨迹推断。
  3. 提出的VLMLocPredictor在四个城市数据集上取得了SOTA性能,并展现出优于其他LLM方法的跨城市泛化能力。

📝 摘要(中文)

下一位置预测是人类移动性研究中的一项基本任务,在交通规划、城市治理和流行病预测等领域有着广泛的应用。现有方法大多忽略了人类在预测轨迹时利用地图进行推理的方式。本文提出了一种新方法,利用视觉-语言模型(VLM)的视觉感知和推理能力,模拟人类的推理过程。首先,提出了视觉引导位置搜索(VGLS)方法,评估通用VLM在轨迹推理方面的能力。然后,提出了VLMLocPredictor,该方法包含两个阶段:首先,设计了两个监督微调(SFT)任务,帮助VLM理解道路网络和轨迹结构,并获得基本的推理能力。其次,引入了基于视觉地图反馈的强化学习,使模型能够通过与环境交互来自我提升其下一位置预测能力。在四个不同城市的数据集上进行的实验表明,该方法实现了最先进(SOTA)的性能,并且与其他基于LLM的方法相比,表现出卓越的跨城市泛化能力。

🔬 方法详解

问题定义:论文旨在解决下一GPS位置预测问题。现有方法的痛点在于,它们通常忽略了人类在预测下一位置时所利用的地图信息和空间推理能力,导致预测精度受限,尤其是在跨城市泛化时表现不佳。

核心思路:论文的核心思路是模仿人类基于地图进行位置预测的方式,利用视觉-语言模型(VLM)的视觉感知和推理能力。通过将轨迹和道路网络渲染成图像,让VLM能够像人类一样“看到”地图,并基于地图的道路连通性和移动趋势进行推理。

技术框架:VLMLocPredictor包含两个主要阶段:1) 监督微调(SFT):设计两个SFT任务,使VLM学习理解道路网络和轨迹结构,并具备基本的视觉推理能力。这两个任务包括道路网络理解和轨迹结构理解。2) 强化学习(RL):引入基于视觉地图反馈的强化学习,使模型能够通过与环境交互,不断优化其下一位置预测策略。模型通过与环境交互,获得奖励信号,从而学习更准确的预测。

关键创新:最重要的技术创新点在于将视觉-语言模型与强化学习相结合,用于下一位置预测。与传统的基于序列模型的预测方法不同,该方法利用VLM的视觉推理能力,模拟人类的推理过程,从而提高了预测精度和泛化能力。此外,使用视觉地图反馈进行强化学习,使得模型能够自主学习和优化预测策略。

关键设计:在监督微调阶段,设计了特定的数据集和损失函数,以帮助VLM学习道路网络和轨迹结构的表示。在强化学习阶段,定义了奖励函数,鼓励模型预测准确的下一位置,并惩罚错误的预测。具体参数设置和网络结构细节在论文中有详细描述,但此处未知。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,VLMLocPredictor在四个不同城市的数据集上取得了SOTA性能。与现有的基于LLM的方法相比,该方法在跨城市泛化方面表现出显著优势,证明了其有效性和鲁棒性。具体的性能提升数据未知,需要在论文中查找。

🎯 应用场景

该研究成果可应用于智能交通系统、城市规划、物流优化、出行推荐等领域。例如,可以根据用户的历史轨迹和实时路况,预测用户接下来可能前往的位置,从而提供个性化的导航和出行建议。此外,该方法还可以用于预测城市交通流量,为交通管理部门提供决策支持。

📄 摘要(原文)

Next Location Prediction is a fundamental task in the study of human mobility, with wide-ranging applications in transportation planning, urban governance, and epidemic forecasting. In practice, when humans attempt to predict the next location in a trajectory, they often visualize the trajectory on a map and reason based on road connectivity and movement trends. However, the vast majority of existing next-location prediction models do not reason over maps \textbf{in the way that humans do}. Fortunately, the recent development of Vision-Language Models (VLMs) has demonstrated strong capabilities in visual perception and even visual reasoning. This opens up a new possibility: by rendering both the road network and trajectory onto an image and leveraging the reasoning abilities of VLMs, we can enable models to perform trajectory inference in a human-like manner. To explore this idea, we first propose a method called Vision-Guided Location Search (VGLS), which evaluates whether a general-purpose VLM is capable of trajectory-based reasoning without modifying any of its internal parameters. Based on insights from the VGLS results, we further propose our main approach: VLMLocPredictor, which is composed of two stages: In the first stage, we design two Supervised Fine-Tuning (SFT) tasks that help the VLM understand road network and trajectory structures and acquire basic reasoning ability on such visual inputs. In the second stage, we introduce Reinforcement Learning from Visual Map Feedback, enabling the model to self-improve its next-location prediction ability through interaction with the environment. Experiments conducted on datasets from four different cities show that our method achieves state-of-the-art (SOTA) performance and exhibits superior cross-city generalization compared to other LLM-based approaches.