GCoT-Decoding: Unlocking Deep Reasoning Paths for Universal Question Answering

📄 arXiv: 2604.06794v1 📥 PDF

作者: Guanran Luo, Wentao Qiu, Zhongquan Jian, Meihong Wang, Qingqiang Wu

分类: cs.CL

发布日期: 2026-04-08


💡 一句话要点

提出GCoT-Decoding,解锁通用问答任务的深度推理路径

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 通用问答 思维链推理 无提示学习 解码策略 路径置信度

📋 核心要点

  1. 现有CoT推理依赖人工设计的提示,限制了其在通用问答任务中的应用。
  2. GCoT-decoding通过两阶段分支解码和路径置信度计算,实现无提示的CoT推理。
  3. 实验表明,GCoT-decoding在固定和自由问答任务上均表现出色,提升了通用性。

📝 摘要(中文)

思维链(Chain-of-Thought, CoT)推理可以增强大型语言模型的能力,但它需要手动设计的提示来引导模型。最近提出的CoT-decoding使得模型能够在没有提示的情况下生成CoT风格的推理路径,但它仅适用于具有固定答案集的问题。为了解决这个限制,我们提出了一种通用的解码策略GCoT-decoding,将适用性扩展到更广泛的问答任务。GCoT-decoding采用了一种两阶段的分支方法,结合斐波那契采样和启发式错误回溯来生成候选解码路径。然后,它将每个路径分成一个推理跨度和一个答案跨度,以准确计算路径置信度,并最终聚合语义相似的路径以识别共识答案,取代了传统的多数投票。我们在涵盖固定和自由问答任务的六个数据集上进行了广泛的实验。我们的方法不仅在固定问答上保持了强大的性能,而且在自由问答上取得了显著的改进,证明了其通用性。

🔬 方法详解

问题定义:现有CoT推理方法依赖于人工设计的提示,这限制了其在通用问答任务中的应用。CoT-decoding虽然能够生成CoT风格的推理路径,但仅适用于具有固定答案集的问题,无法处理自由形式的问答任务。因此,需要一种能够自动生成推理路径,并且适用于更广泛问答任务的通用解码策略。

核心思路:GCoT-decoding的核心思路是通过一种两阶段的分支解码方法,生成多个候选推理路径,然后通过计算路径置信度来选择最佳答案。这种方法避免了人工设计提示的需要,并且能够处理自由形式的答案。通过聚合语义相似的路径,可以提高答案的准确性和鲁棒性。

技术框架:GCoT-decoding主要包含以下几个阶段:1) 路径生成:采用两阶段分支解码方法,结合斐波那契采样和启发式错误回溯,生成多个候选推理路径。2) 路径分割:将每个路径分割为推理跨度和答案跨度。3) 置信度计算:根据推理跨度和答案跨度,计算每个路径的置信度。4) 路径聚合:聚合语义相似的路径,并选择置信度最高的答案作为最终答案。

关键创新:GCoT-decoding的关键创新在于其通用的解码策略,它不需要人工设计的提示,并且能够处理自由形式的答案。两阶段分支解码方法和路径置信度计算是其核心技术创新。与现有方法的本质区别在于,GCoT-decoding能够自动生成推理路径,并且适用于更广泛的问答任务。

关键设计:斐波那契采样用于在解码过程中生成多样化的候选路径。启发式错误回溯用于纠正解码过程中的错误,提高路径的质量。路径置信度的计算可能涉及到一些超参数的调整,例如推理跨度和答案跨度的权重。语义相似度的计算可能使用预训练的语言模型,例如BERT或RoBERTa,来提取路径的语义特征。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

GCoT-decoding在六个数据集上进行了广泛的实验,涵盖了固定和自由问答任务。实验结果表明,GCoT-decoding不仅在固定问答上保持了强大的性能,而且在自由问答上取得了显著的改进。例如,在某些自由问答数据集上,GCoT-decoding的性能提升超过了10%。这些结果证明了GCoT-decoding的通用性和有效性。

🎯 应用场景

GCoT-Decoding可应用于各种问答系统,例如智能客服、搜索引擎和教育辅助工具。它能够提高问答系统的准确性和鲁棒性,并减少对人工提示工程的依赖。未来,该技术可以进一步扩展到其他自然语言处理任务,例如文本摘要和机器翻译,从而提升人工智能系统的通用性和智能化水平。

📄 摘要(原文)

Chain-of-Thought reasoning can enhance large language models, but it requires manually designed prompts to guide the model. Recently proposed CoT-decoding enables the model to generate CoT-style reasoning paths without prompts, but it is only applicable to problems with fixed answer sets. To address this limitation, we propose a general decoding strategy GCoT-decoding that extends applicability to a broader range of question-answering tasks. GCoT-decoding employs a two-stage branching method combining Fibonacci sampling and heuristic error backtracking to generate candidate decoding paths. It then splits each path into a reasoning span and an answer span to accurately compute path confidence, and finally aggregates semantically similar paths to identify a consensus answer, replacing traditional majority voting. We conduct extensive experiments on six datasets covering both fixed and free QA tasks. Our method not only maintains strong performance on fixed QA but also achieves significant improvements on free QA, demonstrating its generality.