ThinkDrive: Chain-of-Thought Guided Progressive Reinforcement Learning Fine-Tuning for Autonomous Driving

📄 arXiv: 2601.04714v1 📥 PDF

作者: Chang Zhao, Zheming Yang, Yunqing Hu, Qi Guo, Zijian Wang, Pengcheng Li, Wen Ji

分类: cs.AI

发布日期: 2026-01-08


💡 一句话要点

ThinkDrive:基于思维链引导的渐进式强化学习微调,用于自动驾驶

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 强化学习 思维链 监督微调 自适应策略优化 大型语言模型 决策智能

📋 核心要点

  1. 现有自动驾驶方法在利用大型语言模型时,面临推理结构化不足、泛化能力弱以及与人类驾驶意图不符的挑战。
  2. ThinkDrive提出了一种基于思维链引导的渐进式强化学习微调框架,通过显式推理和难度感知的策略优化来解决上述问题。
  3. 实验结果表明,ThinkDrive在多个指标上优于现有强化学习基线,并且使用较小模型超越了更大的GPT-4o模型。

📝 摘要(中文)

随着大型语言模型(LLMs)技术的快速发展,其在自动驾驶领域的应用日益广泛。然而,现有方法存在推理结构化程度低、泛化能力差以及与人类驾驶意图不一致等问题。虽然思维链(CoT)推理增强了决策透明度,但传统的监督微调(SFT)未能充分利用其潜力,而强化学习(RL)方法则面临不稳定性和次优推理深度。我们提出了ThinkDrive,一个CoT引导的渐进式RL微调框架,用于自动驾驶,该框架将显式推理与难度感知的自适应策略优化相结合。我们的方法采用两阶段训练策略。首先,我们使用CoT解释执行SFT。然后,我们应用渐进式RL,并使用难度感知的自适应策略优化器,该优化器根据样本复杂度动态调整学习强度。我们在公共数据集上评估了我们的方法。结果表明,ThinkDrive在exam、easy-exam和accuracy指标上分别优于强大的RL基线1.45%、1.95%和1.01%。此外,使用我们的方法训练的20亿参数模型在exam指标上超过了更大的GPT-4o模型3.28%。

🔬 方法详解

问题定义:论文旨在解决自动驾驶中,如何有效利用大型语言模型进行决策,并克服现有方法推理过程不透明、泛化能力不足以及与人类驾驶意图不一致的问题。现有方法,如直接使用监督微调或强化学习,无法充分利用思维链推理的潜力,或者面临训练不稳定和推理深度不够的问题。

核心思路:论文的核心思路是将思维链(CoT)推理与强化学习(RL)相结合,通过显式地引导模型进行推理,并根据样本的难度自适应地调整学习强度,从而提高模型的决策能力和泛化能力。这种方法旨在使模型能够像人类驾驶员一样,逐步思考并做出合理的驾驶决策。

技术框架:ThinkDrive框架包含两个主要阶段:1) 基于CoT的监督微调(SFT):使用包含CoT解释的数据集对模型进行微调,使模型能够生成显式的推理过程。2) 渐进式强化学习(RL):使用难度感知的自适应策略优化器,根据样本的复杂度动态调整学习强度。难度较高的样本会分配更高的学习强度,从而提高模型的学习效率。

关键创新:该方法最重要的创新点在于将思维链推理与渐进式强化学习相结合,并引入了难度感知的自适应策略优化器。这种结合使得模型既能够进行显式的推理,又能够根据环境的反馈进行学习和优化。难度感知的策略优化器能够更有效地利用数据,提高模型的学习效率和泛化能力。

关键设计:在SFT阶段,使用了包含CoT解释的数据集进行训练。在RL阶段,使用了难度感知的自适应策略优化器,该优化器根据样本的复杂度动态调整学习率。具体的难度评估方法和学习率调整策略在论文中进行了详细描述。损失函数的设计也考虑了CoT推理的特点,旨在鼓励模型生成更准确和更完整的推理过程。

📊 实验亮点

ThinkDrive在公共数据集上的实验结果表明,其性能优于现有的强化学习基线,在exam、easy-exam和accuracy指标上分别提升了1.45%、1.95%和1.01%。更重要的是,使用ThinkDrive训练的20亿参数模型在exam指标上超越了更大的GPT-4o模型3.28%,这表明该方法能够有效地利用数据,提高模型的学习效率。

🎯 应用场景

ThinkDrive的研究成果可以应用于自动驾驶系统的决策模块,提高自动驾驶车辆的安全性、可靠性和智能化水平。该方法还可以扩展到其他需要复杂推理和决策的机器人应用领域,例如服务机器人、医疗机器人等。通过显式推理和自适应学习,可以使机器人更好地理解环境,并做出更合理的决策。

📄 摘要(原文)

With the rapid advancement of large language models (LLMs) technologies, their application in the domain of autonomous driving has become increasingly widespread. However, existing methods suffer from unstructured reasoning, poor generalization, and misalignment with human driving intent. While Chain-of-Thought (CoT) reasoning enhances decision transparency, conventional supervised fine-tuning (SFT) fails to fully exploit its potential, and reinforcement learning (RL) approaches face instability and suboptimal reasoning depth. We propose ThinkDrive, a CoT guided progressive RL fine-tuning framework for autonomous driving that synergizes explicit reasoning with difficulty-aware adaptive policy optimization. Our method employs a two-stage training strategy. First, we perform SFT using CoT explanations. Then, we apply progressive RL with a difficulty-aware adaptive policy optimizer that dynamically adjusts learning intensity based on sample complexity. We evaluate our approach on a public dataset. The results show that ThinkDrive outperforms strong RL baselines by 1.45%, 1.95%, and 1.01% on exam, easy-exam, and accuracy, respectively. Moreover, a 2B-parameter model trained with our method surpasses the much larger GPT-4o by 3.28% on the exam metric.