VTC-R1: Vision-Text Compression for Efficient Long-Context Reasoning
作者: Yibo Wang, Yongcheng Jing, Shunyu Liu, Hao Guan, Rong-cheng Tu, Chengyu Wang, Jun Huang, Dacheng Tao
分类: cs.CL
发布日期: 2026-01-29
备注: Code: https://github.com/w-yibo/VTC-R1
🔗 代码/项目: GITHUB
💡 一句话要点
提出VTC-R1,通过视觉-文本压缩提升长上下文推理效率。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 长上下文推理 视觉-文本压缩 视觉-语言模型 高效推理 数学问题求解
📋 核心要点
- 长上下文推理增强了大语言模型处理复杂任务的能力,但计算复杂度也带来了严重的效率瓶颈。
- VTC-R1将中间推理过程渲染为图像,利用视觉-语言模型处理压缩后的“光学记忆”,实现高效推理。
- 实验表明,VTC-R1在多个数学推理基准上优于传统方法,并显著提升了推理速度,加速比达到2.7倍。
📝 摘要(中文)
本文提出了一种新的高效推理范式VTC-R1,它将视觉-文本压缩集成到推理过程中。VTC-R1不处理冗长的文本轨迹,而是将中间推理片段渲染成紧凑的图像,并将其迭代地反馈到视觉-语言模型中作为“光学记忆”。我们基于OpenR1-Math-220K构建了一个训练数据集,实现了3.4倍的token压缩,并对具有代表性的视觉-语言模型Glyph和Qwen3-VL进行了微调。在MATH500、AIME25、AMC23和GPQA-D等基准测试中进行的大量实验表明,VTC-R1始终优于标准的长上下文推理。此外,我们的方法显著提高了推理效率,在端到端延迟方面实现了2.7倍的加速,突显了其作为推理密集型应用的可扩展解决方案的潜力。代码已开源。
🔬 方法详解
问题定义:现有长上下文推理方法计算复杂度高,效率低。为了提高效率,现有方法通常依赖于复杂的额外训练或外部模型进行压缩,这限制了可扩展性,并丢弃了关键的细粒度信息。
核心思路:VTC-R1的核心思想是将中间推理步骤的文本信息压缩成图像,利用视觉-语言模型处理图像信息,从而降低计算复杂度。这种方法将文本信息编码到视觉空间,利用视觉模型高效处理空间信息的能力。
技术框架:VTC-R1的整体框架包含以下几个主要阶段:1) 文本推理阶段:使用语言模型进行初步推理,生成中间推理步骤的文本;2) 视觉编码阶段:将中间推理步骤的文本渲染成图像;3) 视觉-语言推理阶段:将图像输入视觉-语言模型,进行后续推理;4) 迭代反馈:将视觉-语言推理的结果反馈到文本推理阶段,进行迭代推理。
关键创新:VTC-R1的关键创新在于将视觉-文本压缩集成到推理过程中,利用视觉模型处理压缩后的推理信息。与传统的文本压缩方法相比,VTC-R1能够保留更多的细粒度信息,并利用视觉模型高效处理空间信息的能力。
关键设计:VTC-R1的关键设计包括:1) 基于OpenR1-Math-220K构建训练数据集;2) 选择Glyph和Qwen3-VL作为视觉-语言模型进行微调;3) 设计合适的图像渲染方法,将文本信息有效地编码到图像中;4) 优化迭代推理的策略,平衡推理精度和效率。
🖼️ 关键图片
📊 实验亮点
VTC-R1在MATH500、AIME25、AMC23和GPQA-D等基准测试中,始终优于标准的长上下文推理方法。尤其是在端到端延迟方面,VTC-R1实现了2.7倍的加速。此外,VTC-R1在token压缩方面也表现出色,实现了3.4倍的压缩率,证明了其在提高推理效率方面的有效性。
🎯 应用场景
VTC-R1具有广泛的应用前景,例如数学问题求解、代码生成、知识图谱推理等需要长上下文推理的场景。该方法可以显著提高推理效率,降低计算成本,并有望应用于资源受限的设备上,例如移动设备和嵌入式系统。未来,VTC-R1可以与其他高效推理技术相结合,进一步提升推理性能。
📄 摘要(原文)
Long-context reasoning has significantly empowered large language models (LLMs) to tackle complex tasks, yet it introduces severe efficiency bottlenecks due to the computational complexity. Existing efficient approaches often rely on complex additional training or external models for compression, which limits scalability and discards critical fine-grained information. In this paper, we propose VTC-R1, a new efficient reasoning paradigm that integrates vision-text compression into the reasoning process. Instead of processing lengthy textual traces, VTC-R1 renders intermediate reasoning segments into compact images, which are iteratively fed back into vision-language models as "optical memory." We construct a training dataset based on OpenR1-Math-220K achieving 3.4x token compression and fine-tune representative VLMs-Glyph and Qwen3-VL. Extensive experiments on benchmarks such as MATH500, AIME25, AMC23 and GPQA-D demonstrate that VTC-R1 consistently outperforms standard long-context reasoning. Furthermore, our approach significantly improves inference efficiency, achieving 2.7x speedup in end-to-end latency, highlighting its potential as a scalable solution for reasoning-intensive applications. Our code is available at https://github.com/w-yibo/VTC-R1.