Accelerating Multi-modal LLM Gaming Performance via Input Prediction and Mishit Correction

📄 arXiv: 2512.17250v1 📥 PDF

作者: Ziyang Lin, Zixuan Sun, Sanhorn Chen, Xiaoyang Chen, Roy Zhao

分类: cs.AI

发布日期: 2025-12-19

备注: UIUC 25 Fall CS 498


💡 一句话要点

提出基于输入预测和误差校正的多模态LLM游戏加速框架,提升实时控制性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 多模态LLM 实时控制 模型预测控制 推测执行 误差校正

📋 核心要点

  1. 实时序列控制智能体受限于推理延迟,即使是适度的单步规划延迟也会破坏控制稳定性并降低整体性能。
  2. 提出一种推测-校正框架,利用预训练世界模型和MPC规划器生成动作队列,并通过轻量级校正器修正预测误差。
  3. 实验表明,该方法显著减少了规划推理次数,降低了端到端延迟,同时保持了较好的控制性能,验证了校正机制的有效性。

📝 摘要(中文)

本文提出了一种推测-校正框架,将推测执行的预测-验证思想应用于基于模型的控制,并结合TD-MPC2。在每个步骤中,预训练的世界模型和潜在空间MPC规划器生成一个短视界的动作队列以及预测的潜在轨迹,允许智能体执行多个规划的动作而无需立即重新规划。当新的观测到达时,系统测量编码的真实潜在状态与排队的预测潜在状态之间的不匹配。对于小到中等的不匹配,一个轻量级的学习校正器对推测的动作应用残差更新,该更新是从离线重规划教师网络中提炼出来的。对于大的不匹配,智能体安全地回退到完全重新规划并清除过时的动作队列。本文研究了一个门控双塔MLP校正器和一个时间Transformer校正器,以解决局部误差和系统漂移。在DMC Humanoid-Walk任务上的实验表明,该方法将规划推理次数从500次减少到282次,端到端步骤延迟提高了25%,并在仅降低7.1%的回报的情况下保持了强大的控制性能。消融实验结果表明,没有校正的推测执行在较长时间范围内是不可靠的,突出了不匹配感知校正对于鲁棒延迟降低的必要性。

🔬 方法详解

问题定义:论文旨在解决实时序列控制任务中,由于多模态LLM推理延迟导致的控制性能下降问题。现有方法通常依赖于每一步的完整重新规划,计算成本高昂,难以满足实时性要求。这种延迟会严重影响控制的稳定性和整体表现。

核心思路:论文的核心思路是采用“推测-校正”的策略。首先,基于世界模型和MPC规划器预测未来多个步骤的动作序列,并执行这些动作。然后,通过比较实际观测与预测状态之间的差异,利用轻量级的校正器对推测的动作进行修正,从而减少对完整重新规划的依赖。

技术框架:整体框架包含以下几个主要模块:1) 预训练的世界模型,用于预测环境的未来状态;2) 基于潜在空间的MPC规划器,用于生成短视界的动作队列;3) 状态编码器,将观测映射到潜在空间;4) 误差校正器,根据预测状态与实际状态的差异,对推测的动作进行修正;5) 回退机制,当预测误差过大时,安全地回退到完全重新规划。

关键创新:最重要的创新点在于引入了不匹配感知的校正机制。传统的推测执行方法容易因误差累积而失效,而本文提出的校正器能够根据预测误差的大小,自适应地调整校正力度,从而保证了推测执行的鲁棒性。此外,论文还探索了两种不同的校正器结构:门控双塔MLP和时间Transformer,以应对不同类型的预测误差。

关键设计:校正器通过离线蒸馏训练得到,其目标是最小化修正后的动作与重新规划动作之间的差异。论文采用了两种校正器结构:门控双塔MLP用于处理局部误差,时间Transformer用于处理系统性漂移。此外,论文还设计了一个回退机制,当预测误差超过阈值时,智能体会放弃推测执行,并进行完全重新规划,以保证安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在DMC Humanoid-Walk任务中,将规划推理次数从500次减少到282次,端到端步骤延迟提高了25%,同时仅降低了7.1%的回报。消融实验进一步验证了校正机制的必要性,表明没有校正的推测执行在较长时间范围内是不可靠的。

🎯 应用场景

该研究成果可应用于各种需要实时控制的场景,例如机器人导航、自动驾驶、游戏AI等。通过降低推理延迟,可以提高控制系统的响应速度和稳定性,从而改善用户体验和系统性能。此外,该方法还可以扩展到其他类型的序列决策问题,例如推荐系统和金融交易。

📄 摘要(原文)

Real-time sequential control agents are often bottlenecked by inference latency. Even modest per-step planning delays can destabilize control and degrade overall performance. We propose a speculation-and-correction framework that adapts the predict-then-verify philosophy of speculative execution to model-based control with TD-MPC2. At each step, a pretrained world model and latent-space MPC planner generate a short-horizon action queue together with predicted latent rollouts, allowing the agent to execute multiple planned actions without immediate replanning. When a new observation arrives, the system measures the mismatch between the encoded real latent state and the queued predicted latent. For small to moderate mismatch, a lightweight learned corrector applies a residual update to the speculative action, distilled offline from a replanning teacher. For large mismatch, the agent safely falls back to full replanning and clears stale action queues. We study both a gated two-tower MLP corrector and a temporal Transformer corrector to address local errors and systematic drift. Experiments on the DMC Humanoid-Walk task show that our method reduces the number of planning inferences from 500 to 282, improves end-to-end step latency by 25 percent, and maintains strong control performance with only a 7.1 percent return reduction. Ablation results demonstrate that speculative execution without correction is unreliable over longer horizons, highlighting the necessity of mismatch-aware correction for robust latency reduction.