BC Protocol: Structured Dual-Expert Dialogue for Eliciting High-Quality Chain-of-Thought Post-Training Data

📄 arXiv: 2605.25549v1 📥 PDF

作者: Bo Zou, Chao Xu

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-25


💡 一句话要点

提出BC协议,通过结构化双专家对话生成高质量思维链后训练数据

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 思维链 后训练 专家系统 知识工程 双专家对话

📋 核心要点

  1. 现有CoT数据生成方法存在局限,如众包推理浅、专家写作跳步、RLHF仅提供偏好信号。
  2. BC协议通过领域专家与知识工程师的结构化双人对话,显式化专家隐性知识,生成高质量CoT数据。
  3. 实验表明,BC协议在推理过程自然性方面显著优于专家独立写作,GPT-4o等模型评估结果具有统计显著性。

📝 摘要(中文)

高质量的专家思维链(CoT)数据是大型语言模型(LLM)后训练的核心瓶颈之一。现有的数据生产方法各有结构性限制:众包标注缺乏深度推理路径;专家独立写作受到“专家盲点”的限制,专家会跳过他们认为显而易见的推理步骤;RLHF只产生偏好信号,而不是推理链。本文提出了BC协议——一种结构化的双专家启发方法,用于LLM后训练数据生产。该方法将领域专家(晶体智力)与知识工程师(流体智力)仔细配对,系统地将专家的隐性判断外化为自然语言推理链。我们介绍了参与者能力模型,该模型定义了影响启发质量的六个参与者特征维度。“校准的无知”是本文提出的一个原创概念。我们进一步提出“选择优于处方”作为一种方法论原则:对于隐性知识启发任务,将质量控制资源投入到人员选择上,比投入到流程设计上产生更高的回报。

🔬 方法详解

问题定义:论文旨在解决大型语言模型后训练中高质量思维链(CoT)数据匮乏的问题。现有方法,如众包标注、专家独立写作和RLHF,分别存在推理深度不足、专家盲点和缺乏推理链等痛点,难以满足LLM后训练的需求。

核心思路:论文的核心在于利用领域专家(晶体智力)和知识工程师(流体智力)的互补优势,通过结构化的双人对话,将专家的隐性知识显性化,从而生成高质量的CoT数据。这种方法旨在克服专家独立写作时的“专家盲点”,并提供比RLHF更丰富的推理过程信息。

技术框架:BC协议的核心流程是:首先,精心挑选并配对领域专家和知识工程师。然后,通过结构化的对话模板,知识工程师引导领域专家逐步阐述其推理过程,将隐性知识转化为自然语言推理链。最后,通过质量控制流程,确保生成的CoT数据的质量。论文还提出了参与者能力模型,用于评估和选择合适的参与者。

关键创新:BC协议的关键创新点在于:1) 提出了结构化的双专家对话模式,克服了专家盲点;2) 引入了“校准的无知”概念,强调知识工程师在对话中的引导作用;3) 提出了“选择优于处方”的原则,强调人员选择的重要性。

关键设计:论文提出了参与者能力模型,包含六个维度,用于评估参与者的能力。此外,论文还设计了结构化的对话模板,引导专家逐步阐述推理过程。具体的参数设置、损失函数、网络结构等技术细节未在论文摘要中提及,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,BC协议生成的CoT数据在“推理过程自然性”方面显著优于专家独立写作(Group A mean 4.80 vs. Group B mean 1.30, (p=2.4×10^{-8}), Cliff's (δ=1.0))。GPT-4o、Claude Opus 4.5和Gemini 2.5 Pro等多个模型的一致评估结果验证了BC协议的有效性。

🎯 应用场景

BC协议可应用于各种需要高质量思维链数据的领域,如教育、法律、医疗等。通过生成更具解释性和可信度的AI模型,提升模型在复杂问题解决中的能力和可靠性,促进人机协作。

📄 摘要(原文)

High-quality expert chain-of-thought (CoT) data is one of the core bottlenecks in large language model (LLM) post-training. Existing data production methods each have structural limitations: crowdsourced annotation lacks deep reasoning paths; expert solo writing is constrained by the "expert blind spot" -- experts structurally skip reasoning steps they consider obvious; RLHF only produces preference signals rather than reasoning chains. This paper proposes the BC Protocol -- a structured dual-expert elicitation method for LLM post-training data production. The method carefully pairs a domain expert (crystallized intelligence) with a knowledge engineer (fluid intelligence), systematically externalizing the expert's implicit judgments as natural language reasoning chains. We introduce the Participant Aptitude Model, which defines six participant characteristic dimensions that affect elicitation quality. "Calibrated Ignorance" is an original concept proposed in this paper. We further propose "Selection-over-Prescription" as a methodological principle: for implicit knowledge elicitation tasks, investing quality-control resources in personnel selection yields a higher return than investing the same resources in process design. In a controlled experiment in the narrative fiction domain, we directly compared CoT produced by BC Protocol dual dialogue (Group A, (n=20)) against CoT written independently by the same domain expert (Group B, (n=20)). Three cross-vendor judge models -- GPT-4o, Claude Opus 4.5, and Gemini 2.5 Pro -- conducted blind evaluation across five dimensions (600 ratings total). Results show that the BC Protocol achieves an overwhelming advantage in "naturalness of reasoning process" (Group A mean 4.80 vs. Group B mean 1.30, (p=2.4\times10^{-8}), Cliff's (δ=1.0)).