Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges

作者: Xiaoxiao Liu, Qingying Xiao, Junying Chen, Xiangyi Feng, Xiangbo Wu, Bairui Zhang, Xiang Wan, Jian Chang, Guangjun Yu, Yan Hu, Benyou Wang

分类: cs.CL, cs.AI

发布日期: 2025-03-11 (更新: 2025-06-11)

💡 一句话要点

针对智能门诊转诊，提出基于大语言模型的评估框架与基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 智能门诊转诊 评估框架 动态评估 静态评估

📋 核心要点

现有智能门诊转诊系统缺乏对大语言模型（LLM）有效性的标准化评估，尤其是在动态交互场景下。
论文提出一个综合评估框架，包含静态评估（预定义转诊）和动态评估（迭代对话改进推荐）两个核心任务。
实验表明，LLM在门诊转诊任务上相比BERT类模型优势有限，但在交互式对话中提问方面展现潜力。

📝 摘要（中文）

大型语言模型（LLM）越来越多地应用于医疗保健系统中的门诊转诊任务。然而，目前缺乏标准化的评估标准来评估其有效性，尤其是在动态、交互式场景中。本研究系统地考察了LLM在智能门诊转诊（IOR）系统中管理任务的能力和局限性，并提出了一个专门为此类系统设计的综合评估框架。该框架包括两个核心任务：静态评估，侧重于评估预定义的门诊转诊能力；动态评估，侧重于评估通过迭代对话改进门诊转诊推荐的能力。研究结果表明，LLM相对于类BERT模型优势有限，但在交互式对话中提出有效问题方面显示出潜力。

🔬 方法详解

问题定义：论文旨在解决智能门诊转诊（IOR）系统中，如何有效评估大型语言模型（LLM）性能的问题。现有方法缺乏针对IOR系统特点的标准化评估，尤其是在动态交互场景下，无法全面衡量LLM在实际应用中的能力。现有方法难以评估LLM在多轮对话中改进推荐的能力，以及提问策略的有效性。

核心思路：论文的核心思路是构建一个全面的评估框架，该框架不仅评估LLM在静态场景下的转诊能力，还评估其在动态交互场景下通过对话改进转诊推荐的能力。通过设计静态和动态两种评估任务，可以更全面地了解LLM在IOR系统中的优势和局限性。

技术框架：该评估框架包含两个主要模块：静态评估和动态评估。静态评估侧重于评估LLM对预定义门诊转诊的理解和执行能力。动态评估则模拟真实的医患对话场景，评估LLM通过多轮对话 уточнить 病情并改进转诊推荐的能力。动态评估中，LLM需要根据患者的回答，选择合适的提问策略，并最终给出准确的转诊建议。

关键创新：论文的关键创新在于提出了一个针对智能门诊转诊系统的综合评估框架，该框架考虑了静态和动态两种场景，能够更全面地评估LLM的性能。动态评估部分的设计，模拟了真实的医患交互过程，更贴近实际应用。此外，该研究还提供了一个基准测试，可以用于比较不同LLM在IOR系统中的表现。

关键设计：在动态评估中，设计了多种提问策略，例如开放式问题、封闭式问题等，以评估LLM选择合适提问方式的能力。评估指标包括转诊准确率、对话轮数、问题质量等。具体参数设置和损失函数在论文中未详细说明，属于未知信息。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在静态转诊任务上与BERT类模型相比优势不明显。但在动态评估中，LLM在提出有效问题方面展现出潜力，能够通过多轮对话 уточнить 病情并改进转诊推荐。具体的性能数据和提升幅度在论文中未详细说明，属于未知信息。

🎯 应用场景

该研究成果可应用于智能导诊、在线医疗咨询等领域，帮助患者更准确地找到合适的科室和医生，提高医疗效率，改善患者就医体验。未来，该评估框架可用于指导LLM在医疗领域的应用开发，推动智能医疗的发展。

📄 摘要（原文）

Large language models (LLMs) are increasingly applied to outpatient referral tasks across healthcare systems. However, there is a lack of standardized evaluation criteria to assess their effectiveness, particularly in dynamic, interactive scenarios. In this study, we systematically examine the capabilities and limitations of LLMs in managing tasks within Intelligent Outpatient Referral (IOR) systems and propose a comprehensive evaluation framework specifically designed for such systems. This framework comprises two core tasks: static evaluation, which focuses on evaluating the ability of predefined outpatient referrals, and dynamic evaluation, which evaluates capabilities of refining outpatient referral recommendations through iterative dialogues. Our findings suggest that LLMs offer limited advantages over BERT-like models, but show promise in asking effective questions during interactive dialogues.

Large Language Models for Outpatient Referral: Problem Definition, Benchmarking and Challenges

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理