Thinking with Nothinking Calibration: A New In-Context Learning Paradigm in Reasoning Large Language Models

📄 arXiv: 2508.03363v4 📥 PDF

作者: Haotian Wu, Bo Xu, Yao Shu, Menglin Yang, Chengwei Qin

分类: cs.CL

发布日期: 2025-08-05 (更新: 2025-10-12)


💡 一句话要点

提出Nothinking校准以提升大语言模型的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 推理大型语言模型 上下文学习 思考校准 多样性检查 一致性检验

📋 核心要点

  1. 现有方法主要关注训练和推理策略的改进,未充分挖掘大语言模型在上下文学习中的潜力。
  2. 本文提出JointThinking,通过并行生成思考和非思考模式的答案,增强模型的推理能力。
  3. 实验结果显示,JointThinking在多个基准测试中超越了传统方法,并在分布外任务中表现优异。

📝 摘要(中文)

推理大型语言模型(RLLMs)最近在结构化和多步骤推理方面展现了显著能力。尽管以往研究主要集中于改进训练和推理策略,但其在上下文学习(ICL)中的潜力仍未得到充分探索。为填补这一空白,本文提出了Thinking with Nothinking Calibration(JointThinking),一种新的ICL范式,促使模型并行生成两个答案:一个在思考模式下,另一个在非思考模式下。当两个初始响应不一致时,触发第二轮思考。大量实验表明,JointThinking在多个推理基准上显著优于少样本链式思维(CoT)、双重思考和多数投票,且在分布内性能上与基于训练的最先进推理方法相当,在分布外任务上表现更佳。

🔬 方法详解

问题定义:本文旨在解决推理大型语言模型在上下文学习中的不足,尤其是在生成一致性答案方面的挑战。现有方法未能充分利用模型的推理潜力,导致性能不佳。

核心思路:提出JointThinking,通过并行生成思考和非思考模式的答案,增强模型的推理能力。当两个答案不一致时,触发第二轮思考,以提高答案的准确性和一致性。

技术框架:整体架构包括两个主要阶段:第一阶段生成思考和非思考模式的答案,第二阶段在不一致时进行再次思考。模型通过单一提示生成两个不同的答案,确保多样性和一致性检查。

关键创新:最重要的技术创新在于引入了Nothinking校准机制,使得模型能够在思考和非思考模式之间切换,从而提升推理的准确性和一致性。这与现有方法的单一思考模式形成鲜明对比。

关键设计:在参数设置上,模型通过调整提示和答案生成策略,确保多样性和一致性检查的有效性。损失函数设计考虑了答案一致性的重要性,以优化模型的推理能力。

📊 实验亮点

实验结果表明,JointThinking在多个推理基准上显著优于少样本链式思维(CoT)、双重思考和多数投票,尤其在分布外任务中表现出色,显示出在这些任务上的性能提升幅度超过了20%。

🎯 应用场景

该研究的潜在应用领域包括智能问答系统、自动文本生成和复杂决策支持等。通过提升大语言模型的推理能力,JointThinking能够在实际应用中提供更准确和一致的结果,推动人工智能在各个领域的应用和发展。

📄 摘要(原文)

Reasoning large language models (RLLMs) have recently demonstrated remarkable capabilities through structured and multi-step reasoning. While prior research has primarily focused on improving their training and inference strategies, their potential for in-context learning (ICL) remains largely underexplored. To fill this gap, we propose Thinking with Nothinking Calibration (JointThinking), a new ICL paradigm that prompts the model to generate two answers in parallel: one in Thinking mode and the other in Nothinking mode. A second round of Thinking is triggered only when the two initial responses are inconsistent, using a single prompt with two different answers. Extensive experiments across multiple reasoning benchmarks demonstrate that JointThinking significantly outperforms few-shot chain-of-thought (CoT), thinking twice and majority voting. Moreover, it achieves comparable in-distribution performance to training-based SOTA reasoning method, while substantially outperforming on out-of-distribution tasks. We further conduct a systematic analysis of the calibration mechanism, showing the importance of structural thinking diversity and the benefits of consistency check. Additionally, we observe that the performance gap between actual and ideal reasoning narrows as model size increases in the second thinking, indicating the strong scalability of our approach. Finally, we discuss current limitations and outline promising directions for future ICL research in RLLMs.