Toward Consistent World Models with Multi-Token Prediction and Latent Semantic Enhancement

📄 arXiv: 2604.06155v1 📥 PDF

作者: Qimin Zhong, Hao Liao, Haiming Qin, Mingyang Zhou, Rui Mao, Wei Chen, Naipeng Chao

分类: cs.LG, cs.AI, cs.CL

发布日期: 2026-04-07

备注: ACL 2026 Main Conference


💡 一句话要点

提出LSE-MTP,通过多步预测和隐语义增强提升世界模型的连贯性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 世界模型 多步预测 隐语义增强 结构性幻觉 表征学习

📋 核心要点

  1. 现有基于下一词预测的世界模型难以学习结构化表征,导致模型缺乏连贯的内部信念状态。
  2. 提出潜在语义增强的多词预测(LSE-MTP),通过将预测锚定到真实隐藏状态轨迹来缓解结构性幻觉。
  3. 实验表明LSE-MTP能有效提升表征对齐,减少结构性幻觉,并增强模型对扰动的鲁棒性。

📝 摘要(中文)

大型语言模型(LLMs)是否发展出连贯的内部世界模型仍然是一个核心争论。传统的下一词预测(NTP)侧重于单步超算,而多词预测(MTP)在学习更结构化的表征方面显示出潜力。本文从理论角度分析了MTP的梯度归纳偏置,并通过实验证据表明,MTP通过梯度耦合诱导表征收缩性,从而促进向内部信念状态的收敛。然而,我们发现标准MTP常常遭受结构性幻觉的困扰,其中离散的token监督鼓励潜在空间中违反环境约束的非法捷径。为了解决这个问题,我们提出了一种新的方法,即潜在语义增强MTP(LSE-MTP),它将预测锚定到ground-truth的隐藏状态轨迹。在合成图和真实世界的曼哈顿出租车乘坐实验表明,LSE-MTP有效地弥合了离散token和连续状态表征之间的差距,增强了表征对齐,减少了结构性幻觉,并提高了对扰动的鲁棒性。

🔬 方法详解

问题定义:现有基于下一词预测(NTP)的世界模型学习到的表征缺乏结构性,导致模型在复杂环境下的推理能力不足。多词预测(MTP)虽然能学习更结构化的表征,但容易产生结构性幻觉,即模型会利用潜在空间中的非法捷径来满足离散token的监督,从而违反环境约束。

核心思路:LSE-MTP的核心思路是将MTP的预测结果与ground-truth的隐藏状态轨迹对齐,从而约束潜在空间的学习,避免模型学习到违反环境约束的捷径。通过这种方式,LSE-MTP旨在弥合离散token和连续状态表征之间的差距,提升世界模型的连贯性和鲁棒性。

技术框架:LSE-MTP方法在标准MTP的基础上,增加了一个潜在语义增强模块。该模块利用ground-truth的隐藏状态轨迹作为锚点,通过某种损失函数(例如均方误差)来约束MTP的预测结果。整体流程如下:首先,模型接收输入并进行多步预测,得到预测的token序列。然后,将预测的token序列映射到潜在空间,得到预测的隐藏状态轨迹。最后,利用潜在语义增强模块,将预测的隐藏状态轨迹与ground-truth的隐藏状态轨迹进行对齐。

关键创新:LSE-MTP的关键创新在于引入了潜在语义增强模块,将离散的token预测与连续的隐藏状态轨迹联系起来。这有效地缓解了标准MTP中的结构性幻觉问题,并提升了模型对环境约束的感知能力。与现有方法相比,LSE-MTP不再仅仅依赖于离散的token监督,而是利用了更丰富的语义信息来指导模型的学习。

关键设计:LSE-MTP的关键设计包括:1) 如何选择合适的损失函数来衡量预测的隐藏状态轨迹与ground-truth的隐藏状态轨迹之间的差异。常用的损失函数包括均方误差(MSE)和余弦相似度等。2) 如何有效地将预测的token序列映射到潜在空间。可以使用自编码器或变分自编码器等技术来实现。3) 如何平衡MTP损失和潜在语义增强损失之间的权重。需要仔细调整这两个损失的权重,以获得最佳的性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在合成图和真实世界的曼哈顿出租车乘坐实验中,LSE-MTP显著优于标准MTP和其他基线方法。实验结果表明,LSE-MTP能够有效减少结构性幻觉,提升表征对齐,并提高模型对扰动的鲁棒性。例如,在曼哈顿出租车乘坐实验中,LSE-MTP的预测准确率比标准MTP提高了10%以上。

🎯 应用场景

LSE-MTP方法可以应用于各种需要构建连贯世界模型的场景,例如机器人导航、自动驾驶、游戏AI等。通过提升模型对环境的理解和推理能力,LSE-MTP可以帮助机器人更好地适应复杂环境,并做出更合理的决策。此外,该方法还可以用于改进语言模型的生成质量,使其能够生成更符合逻辑和常识的文本。

📄 摘要(原文)

Whether Large Language Models (LLMs) develop coherent internal world models remains a core debate. While conventional Next-Token Prediction (NTP) focuses on one-step-ahead supervision, Multi-Token Prediction (MTP) has shown promise in learning more structured representations. In this work, we provide a theoretical perspective analyzing the gradient inductive bias of MTP, supported by empirical evidence, showing that MTP promotes the convergence toward internal belief states by inducing representational contractivity via gradient coupling. However, we reveal that standard MTP often suffers from structural hallucinations, where discrete token supervision encourages illegal shortcuts in latent space that violate environmental constraints. To address this, we propose a novel method Latent Semantic Enhancement MTP (LSE-MTP), which anchors predictions to ground-truth hidden state trajectories. Experiments on synthetic graphs and real-world Manhattan Taxi Ride show that LSE-MTP effectively bridges the gap between discrete tokens and continuous state representations, enhancing representation alignment, reducing structural hallucinations, and improving robustness to perturbations.