AdaThink-Med: Medical Adaptive Thinking with Uncertainty-Guided Length Calibration

📄 arXiv: 2509.24560v1 📥 PDF

作者: Shaohao Rui, Kaitao Chen, Weijie Ma, Xiaosong Wang

分类: cs.CL, cs.AI

发布日期: 2025-09-29


💡 一句话要点

AdaThink-Med:提出不确定性引导长度校准的医学自适应思考框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 医学问答 自适应思考 不确定性引导 长度校准 大型语言模型

📋 核心要点

  1. 医学大型语言模型推理时常不考虑问题难度,一味进行冗长推理,导致实际应用中成本增加。
  2. AdaThink-Med通过不确定性引导的长度校准,使模型能够根据问题难度自适应地调整推理长度。
  3. 实验表明,AdaThink-Med在保持性能的同时,显著减少了推理长度,并自发形成了“非思考”和“思考”两种模式。

📝 摘要(中文)

本文提出AdaThink-Med,这是一个端到端框架,旨在增强医学推理模型中的自适应思考能力,并利用不确定性引导的长度校准来优化推理过程。该框架首先为每个问题生成多个候选输出,评估每个候选的正确性和不确定性,然后通过不确定性引导的长度校准模块估计问题难度。对于难度低且答案正确的输出,框架会惩罚较长的推理路径;而对于难度高且答案错误的输出,则鼓励扩展思考链以探索替代解决方案。在六个公共医学问答基准测试中,AdaThink-Med平均实现了高达6.4倍的长度缩减,同时仅有最小的性能下降。有趣的是,AdaThink-Med自发地发展出两种不同的推理模式,即“非思考”和“思考”,展示了模型动态抑制冗余推理过程的能力。

🔬 方法详解

问题定义:现有医学大型语言模型在推理时,无论问题难易程度,都倾向于进行冗长的思考链推理,这导致了不必要的计算资源浪费,增加了推理成本。因此,如何使模型能够根据问题的难度自适应地调整推理长度,成为了一个亟待解决的问题。

核心思路:AdaThink-Med的核心思路是利用模型输出的不确定性来估计问题的难度,并根据难度调整推理长度。对于简单的问题,模型应该能够快速给出答案,而对于复杂的问题,则需要进行更深入的思考。通过这种方式,模型可以避免在简单问题上进行过度推理,从而降低计算成本。

技术框架:AdaThink-Med框架主要包含以下几个模块:1) 候选输出生成模块:为每个问题生成多个候选答案。2) 正确性和不确定性评估模块:评估每个候选答案的正确性和不确定性。3) 不确定性引导的长度校准模块:根据候选答案的不确定性和正确性,估计问题的难度,并调整推理长度。框架通过奖励或惩罚机制,鼓励模型在简单问题上减少推理步骤,在复杂问题上增加推理步骤。

关键创新:AdaThink-Med的关键创新在于其不确定性引导的长度校准机制。该机制能够有效地估计问题的难度,并根据难度自适应地调整推理长度。与现有方法相比,AdaThink-Med不需要人工干预,可以自动地学习到最优的推理策略。

关键设计:AdaThink-Med的关键设计包括:1) 使用多个候选输出提高答案的多样性。2) 使用不确定性估计来衡量问题难度。3) 使用奖励和惩罚机制来引导模型学习自适应推理策略。具体的损失函数设计中,会考虑正确性、不确定性和推理长度三个因素,以平衡性能和计算成本。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AdaThink-Med在六个公共医学问答基准测试中取得了显著的成果。实验结果表明,AdaThink-Med平均实现了高达6.4倍的推理长度缩减,同时仅有最小的性能下降。更重要的是,AdaThink-Med自发地发展出两种不同的推理模式,即“非思考”和“思考”,这表明模型能够根据问题的难度动态地调整推理策略,从而有效地抑制冗余推理过程。

🎯 应用场景

AdaThink-Med具有广泛的应用前景,可以应用于各种医学问答系统、临床决策支持系统和智能医疗助手等领域。通过自适应地调整推理长度,AdaThink-Med可以显著降低计算成本,提高系统的响应速度,并为医生提供更高效、更准确的辅助决策支持。未来,该技术还可以扩展到其他领域,例如金融、法律等,以提高人工智能系统的效率和可靠性。

📄 摘要(原文)

Recent advances in inference time scaling with extended long chain-of thought have significantly improved the reasoning capabilities of both general and medical large language models (LLMs). However, these models tend to engage in lengthy reasoning processes regardless of the difficulty of the input question, leading to increased inference costs in real-world applications. Therefore, enabling adaptive thinking where models think less for simpler questions and think more for complex ones is critical for the effective use of medical LLMs in practice. Despite its importance, there is a lack of end-to-end approaches designed to enhance the adaptive thinking capabilities of medical LLMs while providing a comprehensive examination of the trade-off between performance and computational cost. To bridge this gap, we propose AdaThink-Med, the first end-to-end framework designed to enhance adaptive thinking ability in medical reasoning models with uncertainty-guided length calibration. AdaThink-Med first generates multiple candidate outputs for each question, evaluates the correctness and uncertainty of each candidate, and then estimates problem difficulty via an uncertainty-guided length calibration module. For outputs with low difficulty and correct answers, the framework penalizes longer reasoning paths; whereas for those with high difficulty and incorrect answers, it encourages extending the chain of thought to explore alternative solutions. On six public medical QA benchmarks, AdaThink-Med achieves up to 6.4x length reduction on average while retaining performance with only minimal degradation. Intriguingly, we observe that AdaThink-Med spontaneously develops two distinct reasoning modes, which we characterize as "non-thinking" and "thinking", demonstrating the model's ability to suppress redundant reasoning processes dynamically.