To Reason or Not to: Selective Chain-of-Thought in Medical Question Answering

作者: Zaifu Zhan, Min Zeng, Shuang Zhou, Yiran Song, Xiaoyi Chen, Yu Hou, Yifan Wu, Yang Ruan, Rui Zhang

分类: cs.CL, cs.AI

发布日期: 2026-02-23

💡 一句话要点

提出选择性思维链（Selective CoT）方法，提升医学问答效率并降低计算成本。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 医学问答 大型语言模型 思维链 选择性推理 效率优化

📋 核心要点

现有医学问答系统依赖大型语言模型，但标准思维链方法在简单问题上存在冗余推理，效率较低。
提出选择性思维链（Selective CoT），根据问题复杂度动态决定是否进行推理，避免不必要的计算。
实验表明，Selective CoT在保证准确率的同时，显著降低了推理时间和token使用量，提升了效率。

📝 摘要（中文）

本文旨在通过避免不必要的推理来提高大型语言模型（LLM）在医学问答（MedQA）中的效率，同时保持准确性。为此，我们提出了一种推理时策略，称为选择性思维链（Selective CoT）。该方法首先预测问题是否需要推理，仅在需要时才生成理由。我们在四个生物医学QA基准（HeadQA、MedQA-USMLE、MedMCQA和PubMedQA）上评估了两个开源LLM（Llama-3.1-8B和Qwen-2.5-7B）。评估指标包括准确性、生成的总token数和推理时间。结果表明，Selective CoT将推理时间减少了13-45%，token使用量减少了8-47%，而准确性损失最小（≤4%）。在某些模型-任务组合中，它实现了比标准CoT更高的准确性和更高的效率。与固定长度的CoT相比，Selective CoT以显著降低的计算成本达到了相似或更高的准确性。Selective CoT通过仅在有益时才调用显式推理来动态平衡推理深度和效率，减少了对回忆型问题的冗余，同时保留了解释性。Selective CoT为医学QA提供了一种简单、模型无关且经济高效的方法，使推理工作与问题复杂性相匹配，从而增强了基于LLM的临床系统的实际可部署性。

🔬 方法详解

问题定义：论文旨在解决医学问答（MedQA）中，大型语言模型（LLM）使用标准思维链（CoT）方法时，对所有问题都进行推理导致的效率低下问题。现有方法对简单问题也进行不必要的推理，增加了计算成本和延迟。

核心思路：核心思路是根据问题的复杂程度，选择性地应用思维链推理。对于需要复杂推理的问题，采用CoT生成理由；对于简单问题，则直接给出答案，避免冗余计算。这样可以动态平衡推理深度和效率。

技术框架：Selective CoT包含两个主要阶段：1) 问题推理需求预测：使用一个分类器（可能是LLM本身或一个独立的模型）来预测当前问题是否需要进行CoT推理。2) 选择性推理：如果预测需要推理，则使用标准CoT生成理由并给出答案；否则，直接生成答案。整体流程是在推理时动态决定的，无需修改模型结构。

关键创新：关键创新在于引入了“选择性”的概念，将问题难度与推理深度联系起来。与传统的固定长度CoT或始终进行CoT推理的方法不同，Selective CoT能够根据问题本身的需求调整推理策略，从而在效率和准确性之间取得更好的平衡。

关键设计：论文中，推理需求预测器的具体实现方式未知，但可以采用多种方法，例如使用LLM进行zero-shot分类，或者训练一个专门的分类器。关键在于如何定义“需要推理”的标准，以及如何平衡预测器的准确性和效率。损失函数和网络结构等细节取决于预测器的具体实现。

🖼️ 关键图片

📊 实验亮点

实验结果表明，Selective CoT在四个医学QA基准测试中，能够在准确率损失不超过4%的情况下，将推理时间减少13-45%，token使用量减少8-47%。在某些情况下，Selective CoT甚至能够同时提高准确率和效率。与固定长度CoT相比，Selective CoT在相似或更高的准确率下，显著降低了计算成本。

🎯 应用场景

该研究成果可应用于各种基于LLM的临床决策支持系统和医学问答机器人。通过降低计算成本和延迟，Selective CoT能够提高这些系统在实际医疗环境中的部署可行性，例如辅助医生进行诊断、解答患者疑问等，从而提升医疗服务的效率和质量。

📄 摘要（原文）

Objective: To improve the efficiency of medical question answering (MedQA) with large language models (LLMs) by avoiding unnecessary reasoning while maintaining accuracy. Methods: We propose Selective Chain-of-Thought (Selective CoT), an inference-time strategy that first predicts whether a question requires reasoning and generates a rationale only when needed. Two open-source LLMs (Llama-3.1-8B and Qwen-2.5-7B) were evaluated on four biomedical QA benchmarks-HeadQA, MedQA-USMLE, MedMCQA, and PubMedQA. Metrics included accuracy, total generated tokens, and inference time. Results: Selective CoT reduced inference time by 13-45% and token usage by 8-47% with minimal accuracy loss ($\leq$4\%). In some model-task pairs, it achieved both higher accuracy and greater efficiency than standard CoT. Compared with fixed-length CoT, Selective CoT reached similar or superior accuracy at substantially lower computational cost. Discussion: Selective CoT dynamically balances reasoning depth and efficiency by invoking explicit reasoning only when beneficial, reducing redundancy on recall-type questions while preserving interpretability. Conclusion: Selective CoT provides a simple, model-agnostic, and cost-effective approach for medical QA, aligning reasoning effort with question complexity to enhance real-world deployability of LLM-based clinical systems.

To Reason or Not to: Selective Chain-of-Thought in Medical Question Answering

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理