Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

作者: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang

分类: cs.LG, cs.AI

发布日期: 2025-12-31

💡 一句话要点

提出动态大概念模型（DLCM），通过自适应语义空间中的潜在推理提升LLM效率。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 动态概念模型 语义空间 潜在推理 压缩感知 分层建模 μP参数化

📋 核心要点

现有LLM对所有token采用统一计算，忽略了语言信息密度不均的问题，导致算力浪费。
DLCM通过学习语义边界，将token计算转移到压缩的概念空间，提升推理效率。
实验表明，DLCM在固定FLOPs下，零样本基准测试平均提升2.69%。

📝 摘要（中文）

大型语言模型（LLM）对所有token应用统一的计算，然而语言的信息密度高度不均匀。这种token统一的模式在局部可预测的跨度上浪费了算力，同时对语义关键的转换分配不足。我们提出了动态大概念模型（DLCM），这是一个分层语言建模框架，它从潜在表示中学习语义边界，并将计算从token转移到压缩的概念空间，从而更有效地进行推理。DLCM端到端地发现可变长度的概念，而无需依赖预定义的语言单元。分层压缩从根本上改变了缩放行为。我们引入了第一个压缩感知缩放定律，它解耦了token级别的容量、概念级别的推理容量和压缩率，从而能够在固定的FLOPs下进行有原则的计算分配。为了稳定地训练这种异构架构，我们进一步开发了一种解耦的μP参数化，它支持跨宽度和压缩机制的零样本超参数迁移。在实际设置（R=4，对应于每个概念平均四个token）中，DLCM将大约三分之一的推理计算重新分配到一个更高容量的推理骨干中，在匹配的推理FLOPs下，在12个零样本基准测试中实现了+2.69%的平均改进。

🔬 方法详解

问题定义：现有大型语言模型（LLM）对所有token采用统一的计算方式，没有考虑到语言本身信息密度的差异性。这种做法导致在信息冗余的token上浪费计算资源，而在语义关键的token上计算资源不足，限制了模型的效率和性能。

核心思路：DLCM的核心思想是将token级别的计算转移到概念级别的计算。通过学习token的潜在表示，模型能够自动发现语义边界，并将多个token压缩成一个“概念”。然后在压缩后的概念空间中进行推理，从而减少计算量，并提高推理效率。这种分层压缩的方式能够更好地适应语言信息密度的不均匀性。

技术框架：DLCM包含以下主要模块：1) Token Embedding层：将输入token转换为向量表示。2) 概念发现模块：基于token embedding学习语义边界，将token分组为概念。3) 概念Embedding层：将概念转换为向量表示。4) 推理骨干网络：在概念embedding上进行推理，例如Transformer网络。5) 输出层：将推理结果映射回token级别。整个框架是端到端可训练的。

关键创新：DLCM的关键创新在于：1) 动态概念发现：模型能够自动学习语义边界，无需预定义的语言单元。2) 压缩感知缩放定律：提出了新的缩放定律，考虑了token级别容量、概念级别推理容量和压缩率之间的关系，从而能够在固定FLOPs下进行更合理的计算分配。3) 解耦的μP参数化：提出了一种新的参数化方法，能够稳定训练异构架构，并支持零样本超参数迁移。

关键设计：1) 概念发现模块：可以使用各种聚类算法或神经网络来实现，目标是学习token之间的相似性，并将相似的token分组为概念。2) 压缩率R：控制每个概念包含的token数量，R越大，压缩率越高。3) 推理骨干网络：可以使用各种Transformer变体，例如Sparse Transformer或Longformer，以提高推理效率。4) 损失函数：除了标准的语言建模损失外，还可以添加正则化项，以鼓励概念的语义一致性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在R=4的压缩率下，DLCM将大约三分之一的推理计算重新分配到一个更高容量的推理骨干中，在12个零样本基准测试中实现了+2.69%的平均改进。这表明DLCM能够在固定FLOPs下显著提高LLM的性能。

🎯 应用场景

DLCM可应用于各种自然语言处理任务，如机器翻译、文本摘要、问答系统等。通过提高LLM的推理效率，DLCM可以降低计算成本，并使其能够在资源受限的设备上运行。此外，DLCM的动态概念发现能力可以帮助我们更好地理解语言的结构和语义。

📄 摘要（原文）

Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose $\textbf{Dynamic Large Concept Models (DLCM)}$, a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first $\textbf{compression-aware scaling law}$, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a $\textbf{decoupled $μ$P parametrization}$ that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting ($R=4$, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a $\textbf{+2.69$\%$ average improvement}$ across 12 zero-shot benchmarks under matched inference FLOPs.

Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册