OneLatent: Single-Token Compression for Visual Latent Reasoning

作者: Bo Lv, Yasheng Sun, Junjie Wang, Haoxiang Shi

分类: cs.AI

发布日期: 2026-02-14

💡 一句话要点

OneLatent：通过单token压缩视觉潜在推理，降低CoT推理成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉推理 链式思考 单Token压缩 知识蒸馏 OCR 长链推理 模型压缩

📋 核心要点

CoT推理虽能提升模型推理能力，但显著增加了推理成本，成为实际应用的瓶颈。
OneLatent将中间推理步骤压缩为单个潜在token，通过视觉渲染和OCR隐藏状态进行监督，实现高效推理。
实验表明，OneLatent在保证准确率的同时，大幅降低了输出长度，提高了token利用率，尤其在长链推理中表现出色。

📝 摘要（中文）

本文提出了一种名为OneLatent的框架，旨在压缩中间推理过程为一个单独的潜在token，从而降低Chain-of-Thought (CoT) 推理的计算成本。OneLatent通过渲染CoT图像和DeepSeek-OCR的隐藏状态进行监督学习，将文本步骤转化为图像，获得可检查和审计的确定性监督信号，无需模型输出冗长的文本解释。实验结果表明，OneLatent在多个基准测试中，平均输出长度减少了11倍，而准确率仅下降了2.21%，同时输出token贡献度（OTC）提高了6.8倍。在长链逻辑推理任务中，OneLatent使用单个潜在token在ProntoQA上达到了99.80%的准确率，在ProsQA上达到了97.80%的准确率，压缩率高达87.4倍，支持压缩约束下的泛化。

🔬 方法详解

问题定义：现有Chain-of-Thought (CoT) 推理方法虽然能够提升模型在复杂任务上的表现，但由于需要生成大量的中间推理步骤，导致推理成本显著增加，限制了其在资源受限场景下的应用。现有方法的痛点在于推理过程冗长，计算复杂度高，难以进行高效部署。

核心思路：OneLatent的核心思路是将CoT推理过程中的多个中间步骤压缩成一个单独的潜在token。通过这种方式，模型只需要处理和生成一个token，从而显著降低推理成本。为了保证压缩后的潜在token能够有效编码推理信息，论文利用视觉渲染和OCR隐藏状态作为监督信号。

技术框架：OneLatent框架主要包含以下几个阶段：1) 使用CoT生成中间推理步骤；2) 将文本形式的推理步骤渲染成图像；3) 使用DeepSeek-OCR提取图像的隐藏状态；4) 训练模型将输入问题和OCR隐藏状态编码成一个潜在token；5) 使用该潜在token进行最终答案的预测。整个框架通过视觉渲染和OCR技术，将文本推理过程转化为视觉信息，从而实现更有效的压缩和监督。

关键创新：OneLatent最重要的技术创新点在于使用视觉渲染和OCR隐藏状态作为监督信号，将文本推理过程转化为视觉信息。这种方法避免了直接对文本进行压缩可能带来的信息损失，同时利用了视觉信息的丰富性和可解释性。与传统的文本压缩方法相比，OneLatent能够更好地保留推理过程中的关键信息，从而保证压缩后的模型仍然具有较高的推理能力。

关键设计：OneLatent的关键设计包括：1) 使用高质量的文本渲染引擎将文本推理步骤转化为清晰的图像；2) 利用DeepSeek-OCR提取图像的隐藏状态，作为监督信号；3) 设计合适的损失函数，鼓励模型将输入问题和OCR隐藏状态编码成一个信息丰富的潜在token；4) 探索不同的模型架构，以实现最佳的压缩和推理性能。具体的参数设置和网络结构在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

OneLatent在多个基准测试中表现出色。相较于传统的文本CoT方法，OneLatent平均输出长度减少了11倍，而准确率仅下降了2.21%，同时输出token贡献度（OTC）提高了6.8倍。在长链逻辑推理任务中，OneLatent使用单个潜在token在ProntoQA上达到了99.80%的准确率，在ProsQA上达到了97.80%的准确率，压缩率高达87.4倍。

🎯 应用场景

OneLatent具有广泛的应用前景，尤其适用于资源受限的场景，例如移动设备、嵌入式系统和边缘计算。它可以应用于各种需要复杂推理的任务，如问答系统、逻辑推理和决策支持。通过降低推理成本，OneLatent有望推动CoT推理在实际应用中的普及，并为开发更高效、更智能的AI系统提供新的思路。

📄 摘要（原文）

Chain-of-thought (CoT) prompting improves reasoning but often increases inference cost by one to two orders of magnitude. To address these challenges, we present \textbf{OneLatent}, a framework that compresses intermediate reasoning into a single latent token via supervision from rendered CoT images and DeepSeek-OCR hidden states. By rendering textual steps into images, we obtain a deterministic supervision signal that can be inspected and audited without requiring the model to output verbose textual rationales. Across benchmarks, OneLatent reduces average output length by $11\times$ with only a $2.21\%$ average accuracy drop relative to textual CoT, while improving output token contribution (OTC) by $6.8\times$. On long-chain logical reasoning, OneLatent reaches $99.80\%$ on ProntoQA and $97.80\%$ on ProsQA with one latent token, with compression up to $87.4\times$, supporting compression-constrained generalization.

OneLatent: Single-Token Compression for Visual Latent Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理