ThinkDrive: Chain-of-Thought Guided Progressive Reinforcement Learning Fine-Tuning for Autonomous Driving

作者: Chang Zhao, Zheming Yang, Yunqing Hu, Qi Guo, Zijian Wang, Pengcheng Li, Wen Ji

分类: cs.AI

发布日期: 2026-01-08

💡 一句话要点

ThinkDrive：基于思维链引导的渐进式强化学习微调自动驾驶

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 大型语言模型 思维链 强化学习 监督微调 渐进式学习 策略优化

📋 核心要点

现有自动驾驶方法在推理结构化、泛化能力和人类驾驶意图对齐方面存在不足，限制了LLM在自动驾驶中的应用。
ThinkDrive通过CoT引导的渐进式RL微调，结合显式推理和难度感知的策略优化，提升自动驾驶决策能力。
实验结果表明，ThinkDrive在多个指标上优于现有RL基线，甚至超越了更大的GPT-4o模型，验证了其有效性。

📝 摘要（中文）

随着大型语言模型（LLMs）技术的快速发展，其在自动驾驶领域的应用日益广泛。然而，现有方法存在推理结构化不足、泛化能力差以及与人类驾驶意图不一致等问题。虽然思维链（CoT）推理增强了决策透明度，但传统的监督微调（SFT）未能充分利用其潜力，而强化学习（RL）方法面临不稳定性和次优推理深度。我们提出了ThinkDrive，一个CoT引导的渐进式RL微调框架，用于自动驾驶，它将显式推理与难度感知的自适应策略优化相结合。我们的方法采用两阶段训练策略。首先，我们使用CoT解释进行SFT。然后，我们应用渐进式RL，并使用难度感知的自适应策略优化器，该优化器根据样本复杂度动态调整学习强度。我们在公共数据集上评估了我们的方法。结果表明，ThinkDrive在exam、easy-exam和accuracy指标上分别优于强大的RL基线1.45%、1.95%和1.01%。此外，使用我们的方法训练的20亿参数模型在exam指标上超过了更大的GPT-4o模型3.28%。

🔬 方法详解

问题定义：论文旨在解决自动驾驶中大型语言模型应用时，现有方法推理结构化不足、泛化能力差以及与人类驾驶意图不一致的问题。现有方法，如监督微调（SFT）无法充分利用思维链（CoT）的潜力，而强化学习（RL）方法则面临训练不稳定和推理深度不足的挑战。

核心思路：论文的核心思路是结合思维链（CoT）的显式推理能力和强化学习（RL）的策略优化能力，提出一个CoT引导的渐进式RL微调框架。通过显式推理增强决策透明度，并通过难度感知的自适应策略优化，提升模型的泛化能力和与人类驾驶意图的对齐。

技术框架：ThinkDrive框架包含两个主要阶段：1) 基于CoT解释的监督微调（SFT）：利用CoT数据对LLM进行初步训练，使其具备显式推理能力。2) 渐进式强化学习（RL）：使用难度感知的自适应策略优化器，根据样本复杂度动态调整学习强度，逐步提升模型的驾驶策略。整体流程是从模仿学习到强化学习的渐进式提升。

关键创新：论文的关键创新在于将思维链（CoT）与渐进式强化学习（RL）相结合，并引入了难度感知的自适应策略优化器。与传统的SFT相比，ThinkDrive能够更好地利用CoT的推理信息。与传统的RL方法相比，ThinkDrive的渐进式训练和难度感知优化器能够提高训练的稳定性和效率。

关键设计：难度感知的自适应策略优化器是关键设计之一。具体实现细节未知，但其核心思想是根据样本的复杂度动态调整学习率或奖励函数，使得模型能够更有效地学习困难样本，避免在简单样本上过度拟合。此外，CoT数据的构建和SFT的训练策略也是重要的技术细节，但论文摘要中未详细描述。

📊 实验亮点

实验结果表明，ThinkDrive在exam、easy-exam和accuracy指标上分别优于强大的RL基线1.45%、1.95%和1.01%。更重要的是，使用ThinkDrive训练的20亿参数模型在exam指标上超过了更大的GPT-4o模型3.28%，证明了该方法在提升自动驾驶决策能力方面的显著优势。

🎯 应用场景

ThinkDrive的研究成果可应用于各种自动驾驶场景，例如城市道路、高速公路和越野环境。通过提高自动驾驶系统的决策透明度和泛化能力，可以显著提升驾驶安全性、舒适性和效率。该方法还有潜力扩展到其他需要复杂推理和决策的机器人应用领域。

📄 摘要（原文）

With the rapid advancement of large language models (LLMs) technologies, their application in the domain of autonomous driving has become increasingly widespread. However, existing methods suffer from unstructured reasoning, poor generalization, and misalignment with human driving intent. While Chain-of-Thought (CoT) reasoning enhances decision transparency, conventional supervised fine-tuning (SFT) fails to fully exploit its potential, and reinforcement learning (RL) approaches face instability and suboptimal reasoning depth. We propose ThinkDrive, a CoT guided progressive RL fine-tuning framework for autonomous driving that synergizes explicit reasoning with difficulty-aware adaptive policy optimization. Our method employs a two-stage training strategy. First, we perform SFT using CoT explanations. Then, we apply progressive RL with a difficulty-aware adaptive policy optimizer that dynamically adjusts learning intensity based on sample complexity. We evaluate our approach on a public dataset. The results show that ThinkDrive outperforms strong RL baselines by 1.45%, 1.95%, and 1.01% on exam, easy-exam, and accuracy, respectively. Moreover, a 2B-parameter model trained with our method surpasses the much larger GPT-4o by 3.28% on the exam metric.

ThinkDrive: Chain-of-Thought Guided Progressive Reinforcement Learning Fine-Tuning for Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理