Autoregressive Large Language Models are Computationally Universal

作者: Dale Schuurmans, Hanjun Dai, Francesco Zanini

分类: cs.CL

发布日期: 2024-10-04

备注: 32 pages

💡 一句话要点

证明自回归大语言模型在计算上具有通用性，无需外部干预。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 自回归解码 通用计算 图灵完备 Lag系统 提示工程 Gemini-1.5-Pro-001

📋 核心要点

现有语言模型在处理超长输入时面临上下文窗口的限制，影响其复杂计算能力。
论文提出一种广义自回归解码方法，通过将输出token附加到输入序列末尾，扩展上下文窗口。
实验证明，通过特定提示，Gemini-1.5-Pro-001模型可以模拟通用Lag系统，实现通用计算。

📝 摘要（中文）

本文证明了基于Transformer的语言模型的自回归解码可以实现通用计算，而无需外部干预或修改模型的权重。为了证明这一结果，需要理解语言模型如何使用有限的上下文处理任意长度的输入。为此，我们考虑了一种广义的自回归解码，其中，给定一个长输入，发射的token被附加到序列的末尾，随着上下文窗口的推进。我们首先证明，由此产生的系统对应于一种经典的计算模型，即Lag系统，该系统长期以来被认为是计算通用的。通过利用一个新的证明，我们表明一个通用的图灵机可以被一个具有2027条产生式规则的Lag系统模拟。然后，我们研究了现有的一个大型语言模型是否可以模拟这种通用Lag系统的行为。我们给出了肯定的答案，通过展示可以为gemini-1.5-pro-001开发一个单一的系统提示，该提示驱动模型在确定性（贪婪）解码下，正确地应用2027条产生式规则中的每一条。我们得出结论，根据邱奇-图灵论题，具有扩展自回归（贪婪）解码的提示gemini-1.5-pro-001是一种通用计算机。

🔬 方法详解

问题定义：论文旨在证明大型语言模型（LLM）在计算上具有通用性，即能够执行任何可计算的任务。现有方法的痛点在于，标准LLM的上下文窗口大小有限，限制了其处理复杂、长序列计算的能力。

核心思路：论文的核心思路是，通过扩展自回归解码过程，使LLM能够处理任意长度的输入。具体而言，不是简单地截断超出上下文窗口的输入，而是将模型生成的token附加到输入序列的末尾，从而动态地扩展上下文。这种方式允许模型逐步构建和维护计算状态。

技术框架：论文的技术框架主要包括以下几个步骤：1) 形式化定义了一种广义的自回归解码过程，称为Lag系统。2) 证明了Lag系统在计算上是通用的，即可以模拟任何图灵机。3) 设计了一个特定的系统提示，用于引导Gemini-1.5-Pro-001模型模拟一个通用的Lag系统。4) 通过实验验证了在确定性（贪婪）解码下，模型能够正确应用Lag系统的产生式规则。

关键创新：论文最重要的技术创新点在于，它将LLM的自回归解码过程与经典的计算模型（Lag系统）联系起来，并证明了通过简单的提示工程，LLM可以模拟该计算模型，从而实现通用计算。这种方法无需修改模型权重，仅通过提示即可解锁LLM的潜在计算能力。

关键设计：论文的关键设计包括：1) Lag系统的形式化定义，确保其与图灵机等价。2) 系统提示的设计，需要精确地引导LLM模拟Lag系统的产生式规则。3) 使用确定性（贪婪）解码，确保模型行为的可预测性和可重复性。论文选择Gemini-1.5-Pro-001作为实验对象，因为它具有较大的上下文窗口和较强的推理能力。

📊 实验亮点

论文通过实验证明，经过适当提示的Gemini-1.5-Pro-001模型可以正确应用2027条产生式规则，成功模拟通用Lag系统。这一结果表明，大型语言模型在计算上具有通用性，能够执行任何可计算的任务，而无需额外的训练或微调。

🎯 应用场景

该研究成果对通用人工智能的发展具有重要意义，它表明大型语言模型不仅可以用于自然语言处理，还可以作为通用计算平台。潜在应用包括：复杂算法的LLM实现、新型计算架构的设计、以及利用LLM进行科学计算等。未来可能影响AI芯片设计和软件开发模式。

📄 摘要（原文）

We show that autoregressive decoding of a transformer-based language model can realize universal computation, without external intervention or modification of the model's weights. Establishing this result requires understanding how a language model can process arbitrarily long inputs using a bounded context. For this purpose, we consider a generalization of autoregressive decoding where, given a long input, emitted tokens are appended to the end of the sequence as the context window advances. We first show that the resulting system corresponds to a classical model of computation, a Lag system, that has long been known to be computationally universal. By leveraging a new proof, we show that a universal Turing machine can be simulated by a Lag system with 2027 production rules. We then investigate whether an existing large language model can simulate the behaviour of such a universal Lag system. We give an affirmative answer by showing that a single system-prompt can be developed for gemini-1.5-pro-001 that drives the model, under deterministic (greedy) decoding, to correctly apply each of the 2027 production rules. We conclude that, by the Church-Turing thesis, prompted gemini-1.5-pro-001 with extended autoregressive (greedy) decoding is a general purpose computer.

Autoregressive Large Language Models are Computationally Universal

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理