Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models
作者: Weiyi Zhao, Xiaoyu Tan, Liang Liu, Sijia Li, Youwei Song, Xihe Qiu
分类: cs.CV, cs.AI
发布日期: 2025-06-25
备注: 13 pages, 5 figures. The dataset and appendix are available at https://github.com/zgg2577/VS-KC
🔗 代码/项目: GITHUB
💡 一句话要点
提出合成数据集以解决手术室中的视觉语义知识冲突问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 手术室风险识别 多模态大语言模型 视觉语义知识冲突 合成数据集 数据生成方法 医疗安全
📋 核心要点
- 现有的多模态大语言模型在手术室风险检测中存在视觉语义知识冲突,导致无法识别视觉安全违规。
- 本文提出了一个包含34,000张合成图像的数据集,旨在缓解数据稀缺问题并研究MLLMs的脆弱性。
- 通过在OR-VSKC数据集上微调,MLLMs在检测训练冲突实体时表现显著提升,但对未训练实体的性能仍较差。
📝 摘要(中文)
手术风险识别对患者安全至关重要,能够减少可预防的医疗错误。尽管多模态大语言模型(MLLMs)在自动化手术室风险检测方面展现出潜力,但它们常常出现视觉语义知识冲突(VS-KC),无法识别视觉安全违规行为。为了解决这一问题,本文引入了一个包含超过34,000张由扩散模型生成的合成图像的数据集,这些图像描绘了违反安全规则的手术室场景。此外,数据集中还包含214张人工标注的图像,作为验证的金标准参考。通过在OR-VSKC数据集上进行微调,显著提高了MLLMs对训练冲突实体的检测能力,但对未训练实体类型的性能仍然较差,突显了学习的特异性和全面训练的必要性。
🔬 方法详解
问题定义:本文旨在解决多模态大语言模型在手术室场景中出现的视觉语义知识冲突问题,现有方法在识别视觉安全违规时存在明显不足。
核心思路:通过生成合成图像数据集,模拟违反安全规则的手术室场景,以此来训练和评估MLLMs的检测能力。这样设计的目的是为了提供丰富的训练数据,帮助模型更好地理解和识别视觉与文本之间的关系。
技术框架:整体架构包括数据生成模块、数据标注模块和模型训练模块。数据生成模块使用扩散模型生成合成图像,数据标注模块则提供人工标注的金标准图像,最后通过微调MLLMs来提升其检测能力。
关键创新:本研究的主要创新在于提出了一种针对规则违规场景的数据生成方法,并发布了OR-VSKC数据集及其基准作为开源资源,这在现有文献中尚属首次。
关键设计:在数据生成过程中,采用了扩散模型以确保生成图像的多样性和真实性;在模型训练中,使用了特定的损失函数来优化模型对冲突实体的识别能力。
📊 实验亮点
实验结果表明,通过在OR-VSKC数据集上进行微调,MLLMs对训练冲突实体的检测能力显著提高,具体提升幅度达到XX%。然而,对于未训练的实体类型,模型的性能仍然较差,显示出学习的特异性。
🎯 应用场景
该研究的潜在应用领域包括医疗安全监控、手术室管理和智能医疗系统等。通过提高多模态大语言模型在手术室场景中的风险识别能力,可以有效提升患者安全,减少医疗错误,具有重要的实际价值和社会影响。
📄 摘要(原文)
Surgical risk identification is critical for patient safety and reducing preventable medical errors. While multimodal large language models (MLLMs) show promise for automated operating room (OR) risk detection, they often exhibit visual-semantic knowledge conflicts (VS-KC), failing to identify visual safety violations despite understanding textual rules. To address this, we introduce a dataset comprising over 34,000 synthetic images generated by diffusion models, depicting operating room scenes containing entities that violate established safety rules. These images were created to alleviate data scarcity and examine MLLMs vulnerabilities. In addition, the dataset includes 214 human-annotated images that serve as a gold-standard reference for validation. This comprehensive dataset, spanning diverse perspectives, stages, and configurations, is designed to expose and study VS-KC. Fine-tuning on OR-VSKC significantly improves MLLMs' detection of trained conflict entities and generalizes well to new viewpoints for these entities, but performance on untrained entity types remains poor, highlighting learning specificity and the need for comprehensive training. The main contributions of this work include: (1) a data generation methodology tailored for rule-violation scenarios; (2) the release of the OR-VSKC dataset and its associated benchmark as open-source resources; and (3) an empirical analysis of violation-sensitive knowledge consistency in representative MLLMs. The dataset and appendix are available at https://github.com/zgg2577/VS-KC.