Accelerating Multi-modal LLM Gaming Performance via Input Prediction and Mishit Correction

作者: Ziyang Lin, Zixuan Sun, Sanhorn Chen, Xiaoyang Chen, Roy Zhao

分类: cs.AI

发布日期: 2025-12-19

备注: UIUC 25 Fall CS 498

💡 一句话要点

提出基于输入预测和误差校正的多模态LLM游戏加速框架，提升实时控制性能。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多模态LLM 实时控制 模型预测控制 推测执行 误差校正

📋 核心要点

实时序列控制智能体受限于推理延迟，即使是适度的单步规划延迟也会破坏控制稳定性并降低整体性能。
提出一种推测-校正框架，利用预训练世界模型和MPC规划器生成动作队列，并通过轻量级校正器修正预测误差。
实验表明，该方法显著减少了规划推理次数，降低了端到端延迟，同时保持了较好的控制性能，验证了校正机制的有效性。

📝 摘要（中文）

本文提出了一种推测-校正框架，将推测执行的预测-验证思想应用于基于模型的控制，并结合TD-MPC2。在每个步骤中，预训练的世界模型和潜在空间MPC规划器生成一个短视界的动作队列以及预测的潜在轨迹，允许智能体执行多个规划的动作而无需立即重新规划。当新的观测到达时，系统测量编码的真实潜在状态与排队的预测潜在状态之间的不匹配。对于小到中等的不匹配，一个轻量级的学习校正器对推测的动作应用残差更新，该更新是从离线重规划教师网络中提炼出来的。对于大的不匹配，智能体安全地回退到完全重新规划并清除过时的动作队列。本文研究了一个门控双塔MLP校正器和一个时间Transformer校正器，以解决局部误差和系统漂移。在DMC Humanoid-Walk任务上的实验表明，该方法将规划推理次数从500次减少到282次，端到端步骤延迟提高了25%，并在仅降低7.1%的回报的情况下保持了强大的控制性能。消融实验结果表明，没有校正的推测执行在较长时间范围内是不可靠的，突出了不匹配感知校正对于鲁棒延迟降低的必要性。

🔬 方法详解

问题定义：论文旨在解决实时序列控制任务中，由于多模态LLM推理延迟导致的控制性能下降问题。现有方法通常依赖于每一步的完整重新规划，计算成本高昂，难以满足实时性要求。这种延迟会严重影响控制的稳定性和整体表现。

核心思路：论文的核心思路是采用“推测-校正”的策略。首先，基于世界模型和MPC规划器预测未来多个步骤的动作序列，并执行这些动作。然后，通过比较实际观测与预测状态之间的差异，利用轻量级的校正器对推测的动作进行修正，从而减少对完整重新规划的依赖。

技术框架：整体框架包含以下几个主要模块：1) 预训练的世界模型，用于预测环境的未来状态；2) 基于潜在空间的MPC规划器，用于生成短视界的动作队列；3) 状态编码器，将观测映射到潜在空间；4) 误差校正器，根据预测状态与实际状态的差异，对推测的动作进行修正；5) 回退机制，当预测误差过大时，安全地回退到完全重新规划。

关键创新：最重要的创新点在于引入了不匹配感知的校正机制。传统的推测执行方法容易因误差累积而失效，而本文提出的校正器能够根据预测误差的大小，自适应地调整校正力度，从而保证了推测执行的鲁棒性。此外，论文还探索了两种不同的校正器结构：门控双塔MLP和时间Transformer，以应对不同类型的预测误差。

关键设计：校正器通过离线蒸馏训练得到，其目标是最小化修正后的动作与重新规划动作之间的差异。论文采用了两种校正器结构：门控双塔MLP用于处理局部误差，时间Transformer用于处理系统性漂移。此外，论文还设计了一个回退机制，当预测误差超过阈值时，智能体会放弃推测执行，并进行完全重新规划，以保证安全性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在DMC Humanoid-Walk任务中，将规划推理次数从500次减少到282次，端到端步骤延迟提高了25%，同时仅降低了7.1%的回报。消融实验进一步验证了校正机制的必要性，表明没有校正的推测执行在较长时间范围内是不可靠的。

🎯 应用场景

该研究成果可应用于各种需要实时控制的场景，例如机器人导航、自动驾驶、游戏AI等。通过降低推理延迟，可以提高控制系统的响应速度和稳定性，从而改善用户体验和系统性能。此外，该方法还可以扩展到其他类型的序列决策问题，例如推荐系统和金融交易。

📄 摘要（原文）

Real-time sequential control agents are often bottlenecked by inference latency. Even modest per-step planning delays can destabilize control and degrade overall performance. We propose a speculation-and-correction framework that adapts the predict-then-verify philosophy of speculative execution to model-based control with TD-MPC2. At each step, a pretrained world model and latent-space MPC planner generate a short-horizon action queue together with predicted latent rollouts, allowing the agent to execute multiple planned actions without immediate replanning. When a new observation arrives, the system measures the mismatch between the encoded real latent state and the queued predicted latent. For small to moderate mismatch, a lightweight learned corrector applies a residual update to the speculative action, distilled offline from a replanning teacher. For large mismatch, the agent safely falls back to full replanning and clears stale action queues. We study both a gated two-tower MLP corrector and a temporal Transformer corrector to address local errors and systematic drift. Experiments on the DMC Humanoid-Walk task show that our method reduces the number of planning inferences from 500 to 282, improves end-to-end step latency by 25 percent, and maintains strong control performance with only a 7.1 percent return reduction. Ablation results demonstrate that speculative execution without correction is unreliable over longer horizons, highlighting the necessity of mismatch-aware correction for robust latency reduction.

Accelerating Multi-modal LLM Gaming Performance via Input Prediction and Mishit Correction

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理