EH-Benchmark Ophthalmic Hallucination Benchmark and Agent-Driven Top-Down Traceable Reasoning Workflow
作者: Xiaoyu Pan, Yang Bai, Ke Zou, Yang Zhou, Jun Zhou, Huazhu Fu, Yih-Chung Tham, Yong Liu
分类: cs.CL, cs.AI, cs.CV, cs.MA
发布日期: 2025-07-24
备注: 9 figures, 5 tables. submit/6621751
DOI: 10.1016/j.inffus.2025.103631
🔗 代码/项目: GITHUB
💡 一句话要点
提出EH-Benchmark眼科幻觉基准及Agent驱动的可溯源推理工作流,提升眼科诊断准确性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 眼科幻觉 医学大型语言模型 多Agent系统 知识检索 可解释性推理
📋 核心要点
- 医学大型语言模型在眼科诊断中面临幻觉问题,源于知识不足、视觉推理欠缺和数据匮乏。
- 论文提出Agent驱动的三阶段框架,通过知识检索、案例研究和结果验证来缓解幻觉。
- 实验表明,该框架显著降低了视觉理解和逻辑组合两类幻觉,提升了诊断准确性。
📝 摘要(中文)
医学大型语言模型(MLLMs)在眼科诊断中发挥着关键作用,具有解决威胁视力疾病的巨大潜力。然而,由于眼科知识有限、视觉定位和推理能力不足以及多模态眼科数据稀缺导致的幻觉,限制了它们的准确性,从而阻碍了精确的病灶检测和疾病诊断。此外,现有的医学基准未能有效评估各种类型的幻觉或提供可行的解决方案来缓解它们。为了解决上述挑战,我们引入了EH-Benchmark,这是一个新颖的眼科基准,旨在评估MLLMs中的幻觉。我们根据特定任务和错误类型将MLLMs的幻觉分为两个主要类别:视觉理解和逻辑组合,每个类别包含多个子类。鉴于MLLMs主要依赖于基于语言的推理而不是视觉处理,我们提出了一个以Agent为中心的三阶段框架,包括知识层面的检索阶段、任务层面的案例研究阶段和结果层面的验证阶段。实验结果表明,我们的多Agent框架显著减轻了这两种类型的幻觉,提高了准确性、可解释性和可靠性。我们的项目可在https://github.com/ppxy1/EH-Benchmark上找到。
🔬 方法详解
问题定义:医学大型语言模型(MLLMs)在眼科诊断中面临幻觉问题,具体表现为病灶定位不准、疾病诊断错误等。现有方法难以有效评估和缓解这些幻觉,缺乏针对眼科领域的专业基准和可解释的推理过程。现有医学基准无法有效评估各种类型的幻觉,也缺乏缓解幻觉的可行方案。
核心思路:论文的核心思路是构建一个专门针对眼科幻觉的评估基准(EH-Benchmark),并设计一个Agent驱动的三阶段推理框架来缓解幻觉。该框架模仿人类医生的诊断流程,通过知识检索、案例分析和结果验证,提高诊断的准确性和可解释性。之所以采用Agent驱动的方式,是因为MLLMs更擅长语言推理,而非直接的视觉处理。
技术框架:整体框架包含三个阶段:1) 知识层面检索阶段:利用Agent检索相关的眼科知识,为后续推理提供依据。2) 任务层面案例研究阶段:Agent根据检索到的知识,分析具体的眼科病例,进行初步诊断。3) 结果层面验证阶段:Agent对初步诊断结果进行验证,确保其合理性和准确性。这三个阶段形成一个闭环,不断迭代优化诊断结果。
关键创新:论文的关键创新在于:1) 提出了EH-Benchmark,一个专门用于评估眼科幻觉的基准,填补了该领域的空白。2) 设计了Agent驱动的三阶段推理框架,有效缓解了MLLMs在眼科诊断中的幻觉问题。3) 将幻觉分为视觉理解和逻辑组合两大类,并针对每类幻觉设计了相应的评估指标。与现有方法相比,该方法更具针对性和可解释性。
关键设计:在知识检索阶段,使用了基于向量相似度的检索方法,从眼科知识库中检索相关信息。在案例研究阶段,使用了基于规则的推理引擎,根据检索到的知识和病例信息进行诊断。在结果验证阶段,使用了基于统计分析的方法,评估诊断结果的合理性。具体的参数设置和网络结构在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的多Agent框架显著减轻了视觉理解和逻辑组合两种类型的幻觉。具体性能提升数据未知,但论文强调了准确性、可解释性和可靠性的显著增强。该框架在缓解MLLMs的眼科幻觉方面表现出优越性,为眼科AI的发展提供了新的思路。
🎯 应用场景
该研究成果可应用于眼科疾病的辅助诊断、远程医疗、医学教育等领域。通过提高MLLMs在眼科诊断中的准确性和可靠性,可以帮助医生更有效地诊断和治疗眼科疾病,尤其是在医疗资源匮乏的地区,具有重要的社会价值和应用前景。未来,该方法可以推广到其他医学领域,提升医疗AI的整体水平。
📄 摘要(原文)
Medical Large Language Models (MLLMs) play a crucial role in ophthalmic diagnosis, holding significant potential to address vision-threatening diseases. However, their accuracy is constrained by hallucinations stemming from limited ophthalmic knowledge, insufficient visual localization and reasoning capabilities, and a scarcity of multimodal ophthalmic data, which collectively impede precise lesion detection and disease diagnosis. Furthermore, existing medical benchmarks fail to effectively evaluate various types of hallucinations or provide actionable solutions to mitigate them. To address the above challenges, we introduce EH-Benchmark, a novel ophthalmology benchmark designed to evaluate hallucinations in MLLMs. We categorize MLLMs' hallucinations based on specific tasks and error types into two primary classes: Visual Understanding and Logical Composition, each comprising multiple subclasses. Given that MLLMs predominantly rely on language-based reasoning rather than visual processing, we propose an agent-centric, three-phase framework, including the Knowledge-Level Retrieval stage, the Task-Level Case Studies stage, and the Result-Level Validation stage. Experimental results show that our multi-agent framework significantly mitigates both types of hallucinations, enhancing accuracy, interpretability, and reliability. Our project is available at https://github.com/ppxy1/EH-Benchmark.