BitTP: The Lightweight Trajectory Prediction Model with BitLLM for Edge-Devices

📄 arXiv: 2605.29705v1 📥 PDF

作者: Mincheol Kang, Hyunjin Lim, Bomin Kang, Daehee Park

分类: cs.AI

发布日期: 2026-05-28

备注: Camera-ready version. Accepted as a findings paper at CVPR 2026. 8 pages, 4 figures

🔗 代码/项目: GITHUB


💡 一句话要点

BitTP:面向边缘设备的轻量化轨迹预测模型,利用BitLLM实现高效推理

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 轨迹预测 大型语言模型 量化 边缘计算 轻量化模型 自动驾驶 机器人

📋 核心要点

  1. 现有基于LLM的轨迹预测模型计算和内存开销大,难以部署在资源受限的边缘设备上。
  2. BitTP通过将LLM轨迹预测器转换为轻量级的bit线性架构,实现模型压缩和加速。
  3. 实验表明,BitTP-Weight在降低内存和延迟的同时,还能提升预测精度,ADE降低14.29%,FDE降低20.97%。

📝 摘要(中文)

轨迹预测是自主系统的基础任务,需要对多智能体交互和意图进行复杂推理。大型语言模型(LLM)最近被应用于此任务,因为它们提供了强大的上下文推理和可解释的、基于语言的轨迹表示。然而,这些基于LLM的预测器对内存和计算要求极高,难以部署在资源受限的边缘设备上,例如自主机器人的车载计算机。为了弥合这一差距,我们提出了BitTP,它将基于LLM的轨迹预测器转换为轻量级的bit线性架构。我们证明了仅权重进行量化到1.58位(BitTP-Weight)是最佳的。至关重要的是,激活必须保持全精度,因为量化它们会导致时空推理的严重退化和不稳定。经验表明,BitTP-Weight不仅保留而且提高了相对于全精度(BF16)LLM基线的预测质量,平均降低了14.29%的ADE和20.97%的FDE,同时降低了相对于其他量化方法的内存使用和推理延迟。这些结果表明,精心设计的量化是一种有效的正则化器,能够将复杂的基于LLM的推理实际部署在边缘设备上。

🔬 方法详解

问题定义:轨迹预测是自动驾驶等领域的关键任务,需要准确预测多个智能体未来的运动轨迹。现有基于LLM的方法虽然精度较高,但模型体积庞大,计算复杂度高,难以在边缘设备上部署,限制了其应用范围。

核心思路:论文的核心思路是将LLM的权重进行极低比特量化,同时保持激活值的全精度。这种方法能够在大幅降低模型大小和计算量的同时,避免因激活值量化带来的精度损失。作者发现,对权重进行1.58比特量化是最佳选择。

技术框架:BitTP的整体框架包括:1)使用LLM进行轨迹预测;2)对LLM的权重进行量化,使用1.58比特表示;3)保持LLM的激活值为全精度;4)在边缘设备上部署量化后的模型进行推理。该框架的关键在于权重量化和激活值精度保持的平衡。

关键创新:BitTP的关键创新在于提出了针对LLM轨迹预测的权重量化策略,即仅对权重进行极低比特量化,而保持激活值的全精度。这种策略避免了激活值量化带来的信息损失,从而保证了预测精度。同时,极低比特量化显著降低了模型大小和计算量,使其能够在边缘设备上高效运行。

关键设计:BitTP的关键设计包括:1)使用1.58比特进行权重量化,这是在精度和模型大小之间权衡的结果;2)保持激活值为全精度,避免信息损失;3)使用标准的LLM架构作为基础模型,方便移植和扩展;4)使用ADE和FDE作为评价指标,评估预测精度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BitTP-Weight在轨迹预测任务上取得了显著的性能提升。与全精度(BF16)LLM基线相比,BitTP-Weight平均降低了14.29%的ADE和20.97%的FDE。同时,BitTP-Weight还降低了内存使用和推理延迟,使其能够在资源受限的边缘设备上高效运行。这些结果表明,BitTP是一种有效的轨迹预测模型压缩和加速方法。

🎯 应用场景

BitTP可应用于自动驾驶、机器人导航、智能交通等领域。通过在边缘设备上部署轻量化的轨迹预测模型,可以实现实时、高效的轨迹预测,提高系统的自主性和安全性。例如,在自动驾驶中,BitTP可以帮助车辆预测周围车辆和行人的运动轨迹,从而做出更安全的决策。在机器人导航中,BitTP可以帮助机器人预测行人的运动轨迹,从而避免碰撞。

📄 摘要(原文)

Trajectory prediction is a fundamental task for autonomous systems, requiring complex reasoning about multi-agent interactions and intents. Large language models (LLMs) have recently been adopted for this task, as they provide strong contextual reasoning and interpretable, language-based trajectory representations. However, these LLM-based predictors are extremely memory- and compute-intensive, making them difficult to deploy on resource-constrained edge devices such as on-board computers in autonomous robots. To bridge this gap, we propose BitTP, which converts an LLM-based trajectory predictor into a lightweight bitlinear architecture. We demonstrate that weight-only quantization to 1.58-bit (BitTP-Weight) is optimal. Crucially, activations must remain in full precision, as quantizing them leads to severe degradation and instability in spatio-temporal reasoning. Empirically, BitTP-Weight not only preserves but improves prediction quality over the full-precision (BF16) LLM baseline, reducing ADE by 14.29% and FDE by 20.97% on average, while simultaneously reducing memory usage and inference latency relative to other quantization methods. These results demonstrate that carefully designed quantization acts as an effective regularizer, enabling the practical deployment of sophisticated LLM-based reasoning on edge devices. Code is available at: https://github.com/MintCat98/BitTP.