C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving

作者: Kefei Tian, Yuansheng Lian, Kai Yang, Xiangdong Chen, Shen Li

分类: cs.CV, cs.RO

发布日期: 2026-05-11

💡 一句话要点

提出C-CoT反事实思维链框架，利用视觉语言模型提升自动驾驶决策安全性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 视觉语言模型 思维链 因果推理 反事实学习 决策规划 长尾场景

📋 核心要点

现有自动驾驶方法在复杂场景下难以捕捉深层语义，且缺乏因果推理能力，导致在长尾高风险情境中决策鲁棒性不足。
提出C-CoT框架，将决策过程解构为五阶段思维链，并引入结构化元动作评估树，通过反事实推理评估替代动作的安全性。
实验表明该方法在DeepAccident基准上显著提升了风险预测能力，碰撞率降至3.52%，有效增强了决策的安全性与可解释性。

📝 摘要（中文）

在城市交叉路口等复杂场景下，自动驾驶的安全关键规划仍面临严峻挑战。现有的规则驱动或数据驱动方法难以捕捉复杂的场景语义，在罕见的高风险情境下无法进行有效的风险推断与可靠决策。尽管视觉语言模型（VLM）在安全决策方面展现出潜力，但现有方案普遍缺乏反思性与因果推理能力，限制了其鲁棒性。为此，本文提出了反事实思维链（C-CoT）框架，利用VLM将驾驶决策分解为场景描述、关键对象识别、风险预测、反事实风险推理及最终动作规划五个阶段。在反事实推理阶段，引入了结构化元动作评估树，明确评估替代动作组合的潜在后果。这种自反思推理建立了动作选择与安全结果之间的因果联系，显著提升了模型在长尾及分布外场景下的鲁棒性。实验基于DeepAccident-CCoT数据集，通过微调Qwen2.5-VL（7B）模型，实现了81.9%的风险预测召回率，并将碰撞率降至3.52%。

🔬 方法详解

问题定义：论文旨在解决自动驾驶在复杂城市路口场景下，因缺乏因果推理和反思机制，导致在长尾、高风险情境中决策不可靠、鲁棒性差的问题。

核心思路：引入反事实思维链（C-CoT），通过模拟“如果采取不同动作会发生什么”的假设性思考，使模型能够评估多种动作组合的潜在后果，从而在决策前进行自我纠偏。

技术框架：整体流程包含五个阶段：场景描述（感知）、关键对象识别（关注）、风险预测（预判）、反事实风险推理（评估）以及最终动作规划（执行）。其中，反事实推理阶段是核心，通过结构化元动作评估树对候选动作进行因果分析。

关键创新：引入了结构化元动作评估树（Meta-action Evaluation Tree），将抽象的驾驶决策转化为可量化的因果推理过程，实现了从“直觉决策”向“逻辑推理”的范式转变。

关键设计：基于Qwen2.5-VL (7B) 模型，采用低秩自适应（LoRA）进行微调；构建了DeepAccident-CCoT数据集以支持多阶段推理训练，确保模型能够输出符合逻辑的思维链条。

🖼️ 关键图片

📊 实验亮点

实验结果显示，该模型在DeepAccident-CCoT数据集上表现优异，风险预测召回率达到81.9%，碰撞率降低至3.52%，L2规划误差降至1.98米。消融实验证实了反事实推理与元动作评估树在提升系统安全性和决策可解释性方面的关键作用。

🎯 应用场景

该研究主要应用于自动驾驶系统的决策规划模块，特别是在城市交叉路口、无保护左转等高风险、长尾场景中。其核心价值在于通过引入因果推理，提升自动驾驶系统在复杂环境下的安全性与可解释性，为实现更高级别的自动驾驶提供技术支撑。

📄 摘要（原文）

Safety-critical planning in complex environments, particularly at urban intersections, remains a fundamental challenge for autonomous driving. Existing methods, whether rule-based or data-driven, frequently struggle to capture complex scene semantics, infer potential risks, and make reliable decisions in rare, high-risk situations. While vision-language models (VLMs) offer promising approaches for safe decision-making in these environments, most current approaches lack reflective and causal reasoning, thereby limiting their overall robustness. To address this, we propose a counterfactual chain-of-thought (C-CoT) framework that leverages VLMs to decompose driving decisions into five sequential stages: scene description, critical object identification, risk prediction, counterfactual risk reasoning, and final action planning. Within the counterfactual reasoning stage, we introduce a structured meta-action evaluation tree to explicitly assess the potential consequences of alternative action combinations. This self-reflective reasoning establishes causal links between action choices and safety outcomes, improving robustness in long-tail and out-of-distribution scenarios. To validate our approach, we construct the DeepAccident-CCoT dataset based on the DeepAccident benchmark and fine-tune a Qwen2.5-VL (7B) model using low-rank adaptation. Our model achieves a risk prediction recall of 81.9%, reduces the collision rate to 3.52%, and lowers L2 error to 1.98 m. Ablation studies further confirm the critical role of counterfactual reasoning and the meta-action evaluation tree in enhancing safety and interpretability.

C-CoT: Counterfactual Chain-of-Thought with Vision-Language Models for Safe Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理