LongPerceptualThoughts: Distilling System-2 Reasoning for System-1 Perception
作者: Yuan-Hong Liao, Sven Elflein, Liu He, Laura Leal-Taixé, Yejin Choi, Sanja Fidler, David Acuna
分类: cs.CV, cs.CL, cs.LG
发布日期: 2025-04-21
备注: 24 pages, 10 figures, in submission. Project page: https://andrewliao11.github.io/LongPerceptualThoughts
💡 一句话要点
提出LongPerceptualThoughts数据集,提升视觉感知任务中类系统2推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉推理 长思考链 数据合成 类系统2推理 视觉语言模型
📋 核心要点
- 现有视觉感知模型缺乏深度推理能力,难以处理需要复杂思考链的任务。
- 提出LongPerceptualThoughts数据集,通过三阶段合成框架生成长思考链数据。
- 实验表明,使用该数据集训练的模型在多个视觉和文本推理基准上均有显著提升。
📝 摘要(中文)
本文提出了LongPerceptualThoughts,一个包含3万条长思考链的合成数据集,用于提升感知任务中的类系统2推理能力。现有推理模型通过测试时扩展长思考链,在数学和代码等推理任务中表现出显著性能提升。然而,这种长思考链对于感知任务等其他领域中类系统2推理的益处相对较少被探索。构建感知任务的复杂推理链的挑战在于,现有模型缺乏这种思考行为,且难以建立可靠的过程验证器。因此,本文提出了一种新颖的三阶段数据合成框架,首先从密集图像描述中合成可验证的多项选择题,然后从视觉语言模型中提取简单的思考链,最后通过前沿推理模型将这些简单思考链扩展为复杂的长思考链。在强指令调优的7B模型上的受控实验表明,该方法优于现有的视觉推理数据生成方法。使用生成的数据集训练的模型在5个以视觉为中心的基准测试中平均提高了+3.4分,在V$^*$ Bench上提高了+11.8分。值得注意的是,尽管针对视觉任务进行了调整,但它还在文本推理基准测试MMLU-Pro上提高了+2分。
🔬 方法详解
问题定义:论文旨在解决视觉感知任务中,模型缺乏深度推理能力的问题。现有方法通常依赖于浅层的、类系统1的推理,难以处理需要复杂思考链的感知任务。现有的视觉推理数据集和模型难以生成和利用长思考链,限制了模型在复杂视觉场景下的推理能力。
核心思路:论文的核心思路是通过合成高质量的长思考链数据,来训练模型进行更深入的、类系统2的推理。通过模拟人类的思考过程,让模型逐步分析和理解视觉信息,从而提高其在复杂感知任务中的表现。
技术框架:论文提出了一个三阶段的数据合成框架: 1. 问题生成:从密集的图像描述中生成可验证的多项选择题,确保问题具有明确的答案和可验证性。 2. 简单思考链提取:利用视觉语言模型(VLMs)为这些可验证的问题提取简单的思考链,作为推理的基础。 3. 长思考链扩展:使用前沿的推理模型,将简单的思考链扩展为复杂的长思考链,模拟更深入的推理过程。
关键创新:该方法的核心创新在于提出了一种有效合成长思考链数据的方法,解决了现有视觉推理数据集缺乏深度推理信息的问题。通过三阶段的合成框架,可以生成高质量、可验证的长思考链数据,用于训练模型进行更深入的视觉推理。
关键设计:在问题生成阶段,使用高质量的图像描述和精心设计的模板,确保生成的问题具有明确的答案和可验证性。在简单思考链提取阶段,选择合适的视觉语言模型,并进行适当的提示工程,以获得高质量的简单思考链。在长思考链扩展阶段,使用前沿的推理模型,并进行适当的微调,以生成更复杂、更深入的长思考链。具体参数设置和模型选择在论文中有详细描述,此处未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用LongPerceptualThoughts数据集训练的模型在多个视觉推理基准上取得了显著提升。在5个以视觉为中心的基准测试中,平均提高了+3.4分,在V$^*$ Bench上提高了+11.8分。此外,该模型还在文本推理基准测试MMLU-Pro上提高了+2分,表明其具有一定的通用推理能力。
🎯 应用场景
该研究成果可应用于自动驾驶、智能监控、机器人导航等领域。通过提升模型在复杂视觉场景下的推理能力,可以提高系统的安全性和可靠性。例如,在自动驾驶中,模型可以更准确地识别和理解复杂的交通场景,从而做出更安全的决策。在智能监控中,模型可以更有效地检测和分析异常行为,从而提高安全防范能力。
📄 摘要(原文)
Recent reasoning models through test-time scaling have demonstrated that long chain-of-thoughts can unlock substantial performance boosts in hard reasoning tasks such as math and code. However, the benefit of such long thoughts for system-2 reasoning is relatively less explored in other domains such as perceptual tasks where shallower, system-1 reasoning seems sufficient. In this paper, we introduce LongPerceptualThoughts, a new synthetic dataset with 30K long-thought traces for perceptual tasks. The key challenges in synthesizing elaborate reasoning thoughts for perceptual tasks are that off-the-shelf models are not yet equipped with such thinking behavior and that it is not straightforward to build a reliable process verifier for perceptual tasks. Thus, we propose a novel three-stage data synthesis framework that first synthesizes verifiable multiple-choice questions from dense image descriptions, then extracts simple CoTs from VLMs for those verifiable problems, and finally expands those simple thoughts to elaborate long thoughts via frontier reasoning models. In controlled experiments with a strong instruction-tuned 7B model, we demonstrate notable improvements over existing visual reasoning data-generation methods. Our model, trained on the generated dataset, achieves an average +3.4 points improvement over 5 vision-centric benchmarks, including +11.8 points on V$^*$ Bench. Notably, despite being tuned for vision tasks, it also improves performance on the text reasoning benchmark, MMLU-Pro, by +2 points.