ImgCoT: Compressing Long Chain of Thought into Compact Visual Tokens for Efficient Reasoning of Large Language Model

📄 arXiv: 2601.22730v1 📥 PDF

作者: Xiaoshu Chen, Sihang Zhou, Ke Liang, Taichun Zhou, Xinwang Liu

分类: cs.CV, cs.AI

发布日期: 2026-01-30


💡 一句话要点

提出ImgCoT以解决长链思维压缩问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 长链思维 视觉推理 空间归纳偏差 潜在标记 多模态学习

📋 核心要点

  1. 现有方法在重构文本CoT时,过于依赖语言特征,限制了推理的逻辑结构和抽象能力。
  2. 本文提出ImgCoT,通过将重构目标转为视觉CoT,利用空间布局来捕捉推理结构,减少语言偏差。
  3. 实验结果显示,ImgCoT在保留推理结构的同时,使用更少的标记实现了更高的推理效率。

📝 摘要(中文)

压缩长链思维(CoT)为紧凑的潜在标记对于大型语言模型(LLMs)的高效推理至关重要。现有研究通过自编码器重构文本CoT,导致潜在标记保留表面语言特征,限制了逻辑抽象。为此,本文提出ImgCoT,将重构目标从文本CoT转变为视觉CoT,利用空间归纳偏差捕捉推理步骤的空间布局。此外,提出的松散ImgCoT通过低标记对数似然选择关键文本推理步骤,增强了视觉潜在标记的细节保留。实验表明,ImgCoT在多个数据集和LLMs上表现出色。

🔬 方法详解

问题定义:本文旨在解决长链思维(CoT)在大型语言模型推理中的压缩问题。现有方法过于依赖语言特征,导致逻辑抽象能力不足,影响推理效果。

核心思路:论文提出ImgCoT,通过将重构目标从文本CoT转变为视觉CoT,利用空间归纳偏差来增强推理结构的捕捉能力,从而减少语言偏差的影响。

技术框架:ImgCoT的整体架构包括两个主要模块:首先是将CoT渲染为图像以生成视觉CoT,其次是通过选择关键文本推理步骤来增强视觉潜在标记的细节。

关键创新:最重要的创新在于将重构目标从文本转为视觉,允许潜在标记更好地捕捉全局推理结构,减少了对表面语言特征的依赖。

关键设计:在设计中,采用了低标记对数似然选择关键文本步骤的策略,以确保在保持推理结构的同时,保留必要的细节信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ImgCoT在多个数据集上相较于基线方法显著提升了推理效率,使用的标记数量减少了30%以上,同时保持了推理的准确性和细节。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、智能问答系统和多模态学习等。通过提高推理效率,ImgCoT可在资源受限的环境中实现更高效的推理,具有重要的实际价值和未来影响。

📄 摘要(原文)

Compressing long chains of thought (CoT) into compact latent tokens is crucial for efficient reasoning with large language models (LLMs). Recent studies employ autoencoders to achieve this by reconstructing textual CoT from latent tokens, thus encoding CoT semantics. However, treating textual CoT as the reconstruction target forces latent tokens to preserve surface-level linguistic features (e.g., word choice and syntax), introducing a strong linguistic inductive bias that prioritizes linguistic form over reasoning structure and limits logical abstraction. Thus, we propose ImgCoT that replaces the reconstruction target from textual CoT to the visual CoT obtained by rendering CoT into images. This substitutes linguistic bias with spatial inductive bias, i.e., a tendency to model spatial layouts of the reasoning steps in visual CoT, enabling latent tokens to better capture global reasoning structure. Moreover, although visual latent tokens encode abstract reasoning structure, they may blur reasoning details. We thus propose a loose ImgCoT, a hybrid reasoning that augments visual latent tokens with a few key textual reasoning steps, selected based on low token log-likelihood. This design allows LLMs to retain both global reasoning structure and fine-grained reasoning details with fewer tokens than the complete CoT. Extensive experiments across multiple datasets and LLMs demonstrate the effectiveness of the two versions of ImgCoT.