Task Ecologies and the Evolution of World-Tracking Representations in Large Language Models

📄 arXiv: 2604.05469v1 📥 PDF

作者: Giulio Valentino Dalla Riva

分类: stat.ME, cs.LG, stat.ML

发布日期: 2026-04-07


💡 一句话要点

研究语言模型中世界追踪表征的涌现,揭示任务生态与表征演化的关系

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言模型 世界表征 任务生态 生态真实性 交叉熵损失 Transformer 泛化能力

📋 核心要点

  1. 现有语言模型缺乏对世界状态的有效追踪,导致泛化能力受限,本文旨在探究语言模型如何以及何时学习到世界追踪表征。
  2. 论文提出了一种基于生态真实性的框架,通过分析交叉熵损失的分解,定义了语言模型学习世界表征的必要条件。
  3. 通过理论分析和小型语言模型实验,验证了该框架的有效性,并揭示了模型在不同任务生态下的学习行为和失效模式。

📝 摘要(中文)

本文将语言模型视为演化的模型生物,研究自回归下一词预测学习何时选择世界追踪表征。对于任何潜在世界状态的编码,贝叶斯最优下一词交叉熵分解为不可约条件熵加上一个Jensen-Shannon超额项。当且仅当编码保留了训练生态的等价类时,该超额项消失。这为语言模型产生了一个精确的生态真实性概念,并将最小复杂度零超额解确定为训练等价的商划分。然后,确定这种固定编码分析何时适用于Transformer家族:冻结的稠密Transformer和冻结的混合专家Transformer满足它,上下文学习不会扩大模型的分离集,而每个任务的适应打破了这个前提。该框架预测了两种特征失效模式:简单性压力优先移除低增益区分,并且训练最优模型仍然可能在细化训练生态的部署生态上产生正超额。一个条件动态扩展展示了在显式遗传、变异和选择假设下,模型间选择和后训练如何恢复这种差距区分。精确的有限生态检查和受控的microgpt实验验证了静态分解、分裂-合并阈值、脱离生态失效模式以及相关量可直接观察的机制。目标不是大规模地建模前沿系统,而是使用小型语言模型作为表征选择理论的实验室生物。

🔬 方法详解

问题定义:现有语言模型在学习过程中,如何有效地提取和利用世界知识,形成对环境的准确表征,是一个重要的研究问题。现有方法往往缺乏对模型表征的生态环境的考虑,导致模型在特定任务上表现良好,但在新任务或新环境中泛化能力较差。本文旨在研究语言模型在何种条件下能够学习到与环境相适应的世界追踪表征。

核心思路:论文的核心思路是将语言模型视为在特定“任务生态”中演化的生物,通过分析模型在学习过程中对任务生态的适应性,来理解世界追踪表征的形成机制。论文认为,一个好的世界表征应该能够保留训练生态中的等价类,从而最小化预测误差。

技术框架:论文的技术框架主要包括以下几个部分:1) 定义了“任务生态”的概念,描述了模型所处的环境和任务;2) 将交叉熵损失分解为不可约条件熵和一个Jensen-Shannon超额项,其中超额项反映了模型表征与任务生态的匹配程度;3) 分析了不同类型的Transformer模型(如冻结的稠密模型、混合专家模型)在不同任务生态下的学习行为;4) 通过实验验证了理论分析的有效性,并揭示了模型在不同任务生态下的失效模式。

关键创新:论文最重要的技术创新在于提出了“生态真实性”的概念,并将其与语言模型的学习目标联系起来。通过分析交叉熵损失的分解,论文提供了一种量化模型表征与任务生态匹配程度的方法,从而能够更好地理解模型如何学习世界知识。此外,论文还分析了不同类型的Transformer模型在不同任务生态下的学习行为,为模型设计和训练提供了新的思路。

关键设计:论文的关键设计包括:1) 使用Jensen-Shannon散度来衡量模型表征与任务生态之间的差异;2) 分析了冻结的稠密Transformer和混合专家Transformer在不同任务生态下的学习行为;3) 设计了受控的microgpt实验,用于验证理论分析的有效性。论文还考虑了模型在部署生态下可能出现的失效模式,并提出了通过模型间选择和后训练来恢复差距区分的机制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过精确的有限生态检查和受控的microgpt实验,验证了静态分解、分裂-合并阈值、脱离生态失效模式以及双生态救援机制。这些实验结果直接观察到了相关量,为理论分析提供了有力的支持。

🎯 应用场景

该研究成果可应用于提升语言模型在复杂环境下的泛化能力,例如在机器人导航、对话系统等领域。通过理解任务生态与表征学习之间的关系,可以设计更有效的模型训练方法,使其能够更好地适应真实世界的复杂性和变化。

📄 摘要(原文)

We study language models as evolving model organisms and ask when autoregressive next-token learning selects for world-tracking representations. For any encoding of latent world states, the Bayes-optimal next-token cross-entropy decomposes into the irreducible conditional entropy plus a Jensen--Shannon excess term. That excess vanishes if and only if the encoding preserves the training ecology's equivalence classes. This yields a precise notion of ecological veridicality for language models and identifies the minimum-complexity zero-excess solution as the quotient partition by training equivalence. We then determine when this fixed-encoding analysis applies to transformer families: frozen dense and frozen Mixture-of-Experts transformers satisfy it, in-context learning does not enlarge the model's separation set, and per-task adaptation breaks the premise. The framework predicts two characteristic failure modes: simplicity pressure preferentially removes low-gain distinctions, and training-optimal models can still incur positive excess on deployment ecologies that refine the training ecology. A conditional dynamic extension shows how inter-model selection and post-training can recover such gap distinctions under explicit heredity, variation, and selection assumptions. Exact finite-ecology checks and controlled microgpt experiments validate the static decomposition, split-merge threshold, off-ecology failure pattern, and two-ecology rescue mechanism in a regime where the relevant quantities are directly observable. The goal is not to model frontier systems at scale, but to use small language models as laboratory organisms for theory about representational selection.