Affective-ROPTester: Capability and Bias Analysis of LLMs in Predicting Retinopathy of Prematurity

📄 arXiv: 2507.05816v1 📥 PDF

作者: Shuai Zhao, Yulin Zhang, Luwei Xiao, Xinyi Wu, Yanhao Jia, Zhongliang Guo, Xiaobao Wu, Cong-Duy Nguyen, Guoming Zhang, Anh Tuan Luu

分类: cs.AI, cs.CE, cs.CL

发布日期: 2025-07-08


💡 一句话要点

提出Affective-ROPTester,用于评估LLM在预测早产儿视网膜病变风险时的能力和情感偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 早产儿视网膜病变 风险预测 情感偏见 提示工程

📋 核心要点

  1. 现有研究对LLM在预测早产儿视网膜病变风险方面的能力探索不足,缺乏针对性的评估框架和数据集。
  2. 提出Affective-ROPTester框架,通过指令、CoT和ICL等提示策略,并结合情感因素,系统评估LLM的预测能力和情感偏见。
  3. 实验结果表明,LLM在结合外部知识时性能提升,但存在情感偏见,积极情感框架有助于减轻预测偏差。

📝 摘要(中文)

本文旨在探索大型语言模型(LLM)在预测早产儿视网膜病变(ROP)风险方面的能力。为此,作者构建了一个名为CROP的中文基准数据集,包含993条标注为低、中、高风险的入院记录。为了系统评估LLM在ROP风险分层中的预测能力和情感偏见,作者提出了一个名为Affective-ROPTester的自动化评估框架,该框架整合了三种提示策略:基于指令的提示、思维链(CoT)提示和上下文学习(ICL)提示。指令提示评估LLM的内在知识和相关偏见,而CoT和ICL提示则利用外部医学知识来提高预测准确性。此外,作者在提示层面融入情感因素,以研究不同的情感框架如何影响模型预测ROP的能力及其偏见模式。实验结果表明,LLM仅依靠内在知识时,ROP风险预测效果有限,但当结合结构化外部输入时,性能显著提升。模型输出中存在明显的情感偏见,倾向于高估中高风险病例。积极的情感框架有助于减轻预测偏差。这些发现强调了情感敏感的提示工程在提高诊断可靠性方面的关键作用,并突出了Affective-ROPTester作为评估和减轻临床语言建模系统中情感偏见的框架的实用性。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在早产儿视网膜病变(ROP)风险预测中的能力评估和情感偏见问题。现有方法缺乏针对ROP风险预测的基准数据集和系统评估框架,无法有效评估LLM的预测能力和潜在偏见。

核心思路:论文的核心思路是构建一个包含情感因素的自动化评估框架Affective-ROPTester,通过不同的提示策略(指令、CoT、ICL)和情感框架,系统地评估LLM在ROP风险预测中的能力和情感偏见。通过引入外部医学知识和情感因素,旨在提高预测准确性并减轻偏见。

技术框架:Affective-ROPTester框架主要包含以下几个模块:1) CROP数据集:包含993条标注为低、中、高风险的入院记录;2) 提示策略:包括基于指令的提示(评估LLM的内在知识和偏见)、思维链(CoT)提示(利用外部医学知识进行推理)和上下文学习(ICL)提示(通过示例学习);3) 情感框架:在提示中融入不同的情感因素(积极、消极),以研究情感对预测结果的影响;4) 评估指标:用于评估LLM的预测准确性和偏见。

关键创新:论文的关键创新在于:1) 构建了首个中文ROP风险预测基准数据集CROP;2) 提出了Affective-ROPTester框架,该框架能够系统地评估LLM在ROP风险预测中的能力和情感偏见;3) 探索了情感因素对LLM预测结果的影响,并发现积极情感框架有助于减轻预测偏差。与现有方法相比,该研究更关注LLM在医疗领域的应用,并考虑了情感因素的影响。

关键设计:在提示策略方面,论文采用了三种常用的提示方法,并针对ROP风险预测任务进行了优化。在情感框架方面,论文设计了包含积极和消极情感的提示,并通过实验分析了不同情感框架对预测结果的影响。具体的情感词汇和提示模板的选择未知,论文中可能没有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM仅依靠内在知识时,ROP风险预测效果有限,但当结合结构化外部输入时,性能显著提升。模型输出中存在明显的情感偏见,倾向于高估中高风险病例。积极的情感框架有助于减轻预测偏差。具体性能提升数据未知。

🎯 应用场景

该研究成果可应用于辅助医生进行早产儿视网膜病变风险评估,提高诊断效率和准确性。Affective-ROPTester框架可推广至其他医疗领域的语言建模任务,用于评估和减轻模型的情感偏见,提升临床决策的可靠性。未来可进一步探索更复杂的情感表达和更精细的风险分级。

📄 摘要(原文)

Despite the remarkable progress of large language models (LLMs) across various domains, their capacity to predict retinopathy of prematurity (ROP) risk remains largely unexplored. To address this gap, we introduce a novel Chinese benchmark dataset, termed CROP, comprising 993 admission records annotated with low, medium, and high-risk labels. To systematically examine the predictive capabilities and affective biases of LLMs in ROP risk stratification, we propose Affective-ROPTester, an automated evaluation framework incorporating three prompting strategies: Instruction-based, Chain-of-Thought (CoT), and In-Context Learning (ICL). The Instruction scheme assesses LLMs' intrinsic knowledge and associated biases, whereas the CoT and ICL schemes leverage external medical knowledge to enhance predictive accuracy. Crucially, we integrate emotional elements at the prompt level to investigate how different affective framings influence the model's ability to predict ROP and its bias patterns. Empirical results derived from the CROP dataset yield two principal observations. First, LLMs demonstrate limited efficacy in ROP risk prediction when operating solely on intrinsic knowledge, yet exhibit marked performance gains when augmented with structured external inputs. Second, affective biases are evident in the model outputs, with a consistent inclination toward overestimating medium- and high-risk cases. Third, compared to negative emotions, positive emotional framing contributes to mitigating predictive bias in model outputs. These findings highlight the critical role of affect-sensitive prompt engineering in enhancing diagnostic reliability and emphasize the utility of Affective-ROPTester as a framework for evaluating and mitigating affective bias in clinical language modeling systems.