Expanding Computation Spaces of LLMs at Inference Time

作者: Yoonna Jang, Kisu Yang, Isabelle Augenstein

分类: cs.CL

发布日期: 2025-09-29

💡 一句话要点

提出推理时LLM计算空间扩展方法，提升开放域问答和数学任务性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理时扩展 计算空间 填充token 开放域问答

📋 核心要点

现有方法依赖训练填充或特殊token作为额外计算空间，但缺乏对推理时动态扩展计算空间的研究。
论文提出在推理时，通过插入填充token序列来扩展LLM的计算空间，无需额外训练。
实验表明，适当的填充token类型和位置能有效提升模型在开放域问答和数学任务上的性能，尤其对小模型提升显著。

📝 摘要（中文）

本文研究了大型语言模型（LLM）在推理时，是否可以利用人为插入的填充token序列来扩展其计算空间。先确定了有效的token类型、数量和插入位置，然后考察了模型在训练的哪个阶段开始利用扩展的计算空间，最后通过注意力图分析了这些空间内的动态。在1.7B到32B的模型上，针对开放域问答和数学任务的实验表明，适当的token类型和数量各不相同，但将填充token直接放在最终的“Answer:”token之前是最有效的。较小的模型受益最大，在SmolLM2-1.7B-Instruct中提升高达12.372个百分点，表明这些空间充当了额外的计算能力，而不是冗余输入。注意力图显示，扩展的空间通常延续了原始的注意力机制，有时会关注问题或答案选项，表明其对问题解决具有有意义的计算。

🔬 方法详解

问题定义：现有的大型语言模型在解决复杂问题时，受到其固有计算能力的限制。虽然Chain-of-Thought (CoT) 等方法通过引入中间推理步骤来缓解这个问题，但仍然依赖于模型预训练时获得的知识和能力。现有的扩展计算空间的方法通常需要在训练阶段对模型进行修改，例如训练特定的填充token或特殊token，这增加了训练成本和复杂度。因此，如何在推理阶段动态地扩展LLM的计算空间，而无需额外的训练，是一个重要的研究问题。

核心思路：本文的核心思路是在推理阶段，通过在输入文本中插入一段精心设计的填充token序列，来扩展LLM的计算空间。这些填充token不包含任何实际语义信息，但可以为模型提供额外的“画布”，让模型在推理过程中进行更复杂的计算和推理。通过调整填充token的类型、数量和位置，可以优化扩展计算空间的效果。

技术框架：该方法主要包含以下几个步骤：1) 选择合适的填充token类型，例如空白字符、特殊符号等。2) 确定填充token的数量，这需要根据模型的规模和任务的复杂度进行调整。3) 选择填充token的插入位置，论文重点研究了将填充token插入到最终答案token之前的策略。4) 将填充token插入到输入文本中，然后输入到LLM进行推理。5) 分析LLM在填充token上的注意力分布，以了解模型如何利用扩展的计算空间。

关键创新：该方法最重要的创新点在于，它能够在推理阶段动态地扩展LLM的计算空间，而无需对模型进行任何额外的训练。这使得该方法具有很高的灵活性和通用性，可以应用于各种不同的LLM和任务。此外，通过分析LLM在填充token上的注意力分布，可以深入了解模型如何利用扩展的计算空间进行推理。

关键设计：论文中关键的设计包括：1) 探索了不同的填充token类型，例如空白字符、特殊符号等，并发现不同的token类型对性能的影响不同。2) 研究了填充token的数量对性能的影响，发现存在一个最优的数量范围。3) 重点研究了将填充token插入到最终答案token之前的策略，并发现这种策略能够取得最好的效果。4) 使用注意力图来分析LLM在填充token上的注意力分布，以了解模型如何利用扩展的计算空间进行推理。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在SmolLM2-1.7B-Instruct模型上，使用该方法在某些任务上可以获得高达12.372个百分点的性能提升。此外，注意力图分析显示，扩展的计算空间能够延续原始的注意力机制，并关注问题或答案选项，表明其对问题解决具有有意义的计算。实验还发现，将填充token直接放在最终的“Answer:”token之前是最有效的。

🎯 应用场景

该研究成果可应用于各种需要复杂推理的自然语言处理任务，如开放域问答、数学问题求解、代码生成等。通过在推理时动态扩展LLM的计算空间，可以提升模型在这些任务上的性能，尤其对于计算资源受限的场景，具有重要的实际价值。未来，该方法可以进一步扩展到其他模态，例如图像和音频，以提升多模态模型的推理能力。

📄 摘要（原文）

Chain-of-thought (CoT) rationale enables language models to use additional task-related text for problem-solving, benefiting not only from detailed reasoning steps but also from the expanded computational space of longer inputs. Prior work has trained filler or special tokens to serve as additional computation spaces. In this study, we investigate whether language models can leverage artificially inserted sequences of filler tokens solely at inference. We first identify effective token types, numbers, and insertion locations, then examine at what stage of training models begin to exploit the expanded computation space, and finally analyze dynamics within these spaces via attention maps. Experiments on models ranging from 1.7B to 32B across open-domain QA and math tasks show that appropriate token types and counts vary, but placing filler tokens directly before the final 'Answer:' token is most effective. Smaller models benefit most, up to 12.372 percentage points in SmolLM2-1.7B-Instruct, indicating that these spaces act as additional computational capacity rather than redundant input. Attention maps reveal that expanded spaces often continue the original attention mechanism and sometimes focus on questions or answer options, suggesting meaningful computation for problem-solving.

Expanding Computation Spaces of LLMs at Inference Time

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理