A Chain-of-thought Reasoning Breast Ultrasound Dataset Covering All Histopathology Categories
作者: Haojun Yu, Youcheng Li, Zihan Niu, Nan Zhang, Xuantong Gong, Huan Li, Zhiying Zou, Haifeng Qi, Zhenxiao Cao, Zijie Lan, Xingjian Yuan, Jiating He, Haokai Zhang, Shengtao Zhang, Zicheng Wang, Dong Wang, Ziwei Zhao, Congying Chen, Yong Wang, Wangyan Qin, Qingli Zhu, Liwei Wang
分类: eess.IV, cs.AI, cs.CV
发布日期: 2025-09-21 (更新: 2025-09-23)
💡 一句话要点
构建BUS-CoT乳腺超声数据集,覆盖所有组织病理学类别,促进AI链式推理研究。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 乳腺超声 链式思考 数据集 组织病理学 AI诊断
📋 核心要点
- 高质量乳腺超声AI基准数据集在数据规模和标注丰富度方面存在局限性,阻碍了相关研究的进展。
- 构建BUS-CoT数据集,包含所有组织病理学类型,并提供专家标注的链式推理过程,以促进CoT推理研究。
- 该数据集旨在提升AI系统在罕见病例中的鲁棒性,解决临床实践中容易出错的问题,具有重要的临床价值。
📝 摘要(中文)
本研究提出了BUS-CoT,一个用于链式思考(CoT)推理分析的乳腺超声(BUS)数据集。该数据集包含来自4838名患者的10019个病灶的11439张图像,覆盖了全部99种组织病理学类型。为了促进对激励CoT推理的研究,我们基于观察、特征、诊断和病理学标签构建了推理过程,并由经验丰富的专家进行注释和验证。此外,通过覆盖所有组织病理学类型的病灶,我们的目标是促进在临床实践中容易出错的罕见病例中,AI系统的鲁棒性。
🔬 方法详解
问题定义:现有公开的乳腺超声数据集规模有限,且标注信息不够丰富,特别是缺乏支持链式思考(Chain-of-Thought, CoT)推理过程的标注。这限制了AI模型在乳腺超声图像分析中进行更深入的推理和诊断,尤其是在处理罕见或复杂的病例时,容易出现误判。因此,需要构建一个更大规模、标注更全面的乳腺超声数据集,以支持CoT推理研究,提升AI模型的诊断准确性和鲁棒性。
核心思路:本研究的核心思路是构建一个包含所有组织病理学类型的乳腺超声数据集,并为每个病灶提供详细的链式推理过程标注。通过专家标注的观察、特征、诊断和病理学标签,模拟医生进行诊断的思维过程,从而激励AI模型学习CoT推理能力。这种方法旨在使AI模型能够像医生一样,逐步分析图像特征,进行推理和判断,最终给出准确的诊断结果。
技术框架:BUS-CoT数据集的构建主要包括以下几个阶段:1) 数据收集:收集来自多个医疗机构的乳腺超声图像,覆盖所有99种组织病理学类型。2) 病灶标注:由经验丰富的专家对每张图像中的病灶进行精确标注,包括病灶的位置、大小、形状等信息。3) CoT推理过程构建:基于观察(图像特征)、特征(病灶特征描述)、诊断(初步诊断结果)和病理学标签(最终病理诊断结果),构建链式推理过程,并由专家进行验证。4) 数据集发布:将标注好的数据和推理过程以标准格式发布,供研究人员使用。
关键创新:本研究的关键创新在于构建了一个覆盖所有组织病理学类型的乳腺超声数据集,并提供了专家标注的链式推理过程。这是首个专门为CoT推理设计的乳腺超声数据集,为相关研究提供了宝贵的数据资源。与现有数据集相比,BUS-CoT数据集不仅规模更大,而且标注信息更丰富,能够更好地支持AI模型进行深入的推理和诊断。
关键设计:在CoT推理过程构建方面,研究团队邀请了多位经验丰富的专家参与标注和验证,确保标注的准确性和一致性。推理过程的构建遵循医学诊断的逻辑,从观察图像特征开始,逐步分析病灶特征,进行初步诊断,最终结合病理学标签给出最终诊断结果。这种设计能够有效地模拟医生进行诊断的思维过程,从而激励AI模型学习CoT推理能力。
🖼️ 关键图片
📊 实验亮点
BUS-CoT数据集包含11439张图像,覆盖了99种组织病理学类型,是目前最大的乳腺超声CoT推理数据集。专家标注的推理过程为AI模型提供了学习CoT推理的有效指导。该数据集的发布将极大地促进乳腺超声图像分析领域的研究进展,并有望提升AI模型在乳腺癌诊断中的性能。
🎯 应用场景
该研究成果可应用于开发更智能、更可靠的乳腺癌辅助诊断系统。通过利用BUS-CoT数据集训练的AI模型,医生可以获得更准确的诊断结果和更全面的推理过程,从而提高诊断效率和准确性,减少误诊率,尤其是在罕见病例中。此外,该数据集还可以促进CoT推理在医学图像分析领域的应用,为其他疾病的诊断提供借鉴。
📄 摘要(原文)
Breast ultrasound (BUS) is an essential tool for diagnosing breast lesions, with millions of examinations per year. However, publicly available high-quality BUS benchmarks for AI development are limited in data scale and annotation richness. In this work, we present BUS-CoT, a BUS dataset for chain-of-thought (CoT) reasoning analysis, which contains 11,439 images of 10,019 lesions from 4,838 patients and covers all 99 histopathology types. To facilitate research on incentivizing CoT reasoning, we construct the reasoning processes based on observation, feature, diagnosis and pathology labels, annotated and verified by experienced experts. Moreover, by covering lesions of all histopathology types, we aim to facilitate robust AI systems in rare cases, which can be error-prone in clinical practice.