Dynamic Large Concept Models: Latent Reasoning in an Adaptive Semantic Space
作者: Xingwei Qu, Shaowen Wang, Zihao Huang, Kai Hua, Fan Yin, Rui-Jie Zhu, Jundong Zhou, Qiyang Min, Zihao Wang, Yizhi Li, Tianyu Zhang, He Xing, Zheng Zhang, Yuxuan Song, Tianyu Zheng, Zhiyuan Zeng, Chenghua Lin, Ge Zhang, Wenhao Huang
分类: cs.LG, cs.AI
发布日期: 2025-12-31
💡 一句话要点
提出动态大概念模型(DLCM),通过自适应语义空间中的潜在推理提升LLM效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 动态概念模型 语义空间 潜在推理 压缩感知 分层建模 μP参数化
📋 核心要点
- 现有LLM对所有token采用统一计算,忽略了语言信息密度不均的问题,导致算力浪费。
- DLCM通过学习语义边界,将token计算转移到压缩的概念空间,提升推理效率。
- 实验表明,DLCM在固定FLOPs下,零样本基准测试平均提升2.69%。
📝 摘要(中文)
大型语言模型(LLM)对所有token应用统一的计算,然而语言的信息密度高度不均匀。这种token统一的模式在局部可预测的跨度上浪费了算力,同时对语义关键的转换分配不足。我们提出了动态大概念模型(DLCM),这是一个分层语言建模框架,它从潜在表示中学习语义边界,并将计算从token转移到压缩的概念空间,从而更有效地进行推理。DLCM端到端地发现可变长度的概念,而无需依赖预定义的语言单元。分层压缩从根本上改变了缩放行为。我们引入了第一个压缩感知缩放定律,它解耦了token级别的容量、概念级别的推理容量和压缩率,从而能够在固定的FLOPs下进行有原则的计算分配。为了稳定地训练这种异构架构,我们进一步开发了一种解耦的μP参数化,它支持跨宽度和压缩机制的零样本超参数迁移。在实际设置(R=4,对应于每个概念平均四个token)中,DLCM将大约三分之一的推理计算重新分配到一个更高容量的推理骨干中,在匹配的推理FLOPs下,在12个零样本基准测试中实现了+2.69%的平均改进。
🔬 方法详解
问题定义:现有大型语言模型(LLM)对所有token采用统一的计算方式,没有考虑到语言本身信息密度的差异性。这种做法导致在信息冗余的token上浪费计算资源,而在语义关键的token上计算资源不足,限制了模型的效率和性能。
核心思路:DLCM的核心思想是将token级别的计算转移到概念级别的计算。通过学习token的潜在表示,模型能够自动发现语义边界,并将多个token压缩成一个“概念”。然后在压缩后的概念空间中进行推理,从而减少计算量,并提高推理效率。这种分层压缩的方式能够更好地适应语言信息密度的不均匀性。
技术框架:DLCM包含以下主要模块:1) Token Embedding层:将输入token转换为向量表示。2) 概念发现模块:基于token embedding学习语义边界,将token分组为概念。3) 概念Embedding层:将概念转换为向量表示。4) 推理骨干网络:在概念embedding上进行推理,例如Transformer网络。5) 输出层:将推理结果映射回token级别。整个框架是端到端可训练的。
关键创新:DLCM的关键创新在于:1) 动态概念发现:模型能够自动学习语义边界,无需预定义的语言单元。2) 压缩感知缩放定律:提出了新的缩放定律,考虑了token级别容量、概念级别推理容量和压缩率之间的关系,从而能够在固定FLOPs下进行更合理的计算分配。3) 解耦的μP参数化:提出了一种新的参数化方法,能够稳定训练异构架构,并支持零样本超参数迁移。
关键设计:1) 概念发现模块:可以使用各种聚类算法或神经网络来实现,目标是学习token之间的相似性,并将相似的token分组为概念。2) 压缩率R:控制每个概念包含的token数量,R越大,压缩率越高。3) 推理骨干网络:可以使用各种Transformer变体,例如Sparse Transformer或Longformer,以提高推理效率。4) 损失函数:除了标准的语言建模损失外,还可以添加正则化项,以鼓励概念的语义一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在R=4的压缩率下,DLCM将大约三分之一的推理计算重新分配到一个更高容量的推理骨干中,在12个零样本基准测试中实现了+2.69%的平均改进。这表明DLCM能够在固定FLOPs下显著提高LLM的性能。
🎯 应用场景
DLCM可应用于各种自然语言处理任务,如机器翻译、文本摘要、问答系统等。通过提高LLM的推理效率,DLCM可以降低计算成本,并使其能够在资源受限的设备上运行。此外,DLCM的动态概念发现能力可以帮助我们更好地理解语言的结构和语义。
📄 摘要(原文)
Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose $\textbf{Dynamic Large Concept Models (DLCM)}$, a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first $\textbf{compression-aware scaling law}$, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a $\textbf{decoupled $μ$P parametrization}$ that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting ($R=4$, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a $\textbf{+2.69$\%$ average improvement}$ across 12 zero-shot benchmarks under matched inference FLOPs.