MHGraphBench: Knowledge Graph-Grounded Benchmarking of Mental Health Knowledge in Large Language Models

📄 arXiv: 2605.15589v1 📥 PDF

作者: Weixin Liu, Congning Ni, Shelagh A. Mulvaney, Susannah L. Rose, Murat Kantarcioglu, Bradley A. Malin, Zhijun Yin

分类: cs.CL

发布日期: 2026-05-15

备注: Accepted to GEM 2026, ACL 2026 Workshop; 9 pages main text plus references and appendices


💡 一句话要点

MHGraphBench:基于知识图谱评估大语言模型在精神健康知识方面的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识图谱 精神健康 基准测试 实体识别 关系判断 推理 评估

📋 核心要点

  1. 现有大语言模型在精神健康领域的应用日益广泛,但其知识掌握程度和应用能力尚不明确。
  2. 论文提出MHGraphBench基准测试,利用知识图谱评估LLM在精神健康知识方面的实体识别、关系判断和推理能力。
  3. 实验结果揭示了LLM在识别和判断之间存在差距,并强调了输出格式对评估结果的影响。

📝 摘要(中文)

大型语言模型(LLMs)在精神健康领域得到越来越多的应用,但它们对相关生物医学知识的掌握程度以及将这些知识可靠地应用于临床结构化判断的能力仍不清楚。本文提出了一个基于知识图谱(KG)的基准测试MHGraphBench,用于评估LLMs在精神健康实体识别、关系判断和双跳推理方面的能力。该基准测试源自PrimeKG,包含九个任务族,具有KG支持的答案和受控的负选项。对15个闭源和开源LLM的实验表明,存在持续的识别-判断差距:领先的模型在实体类型识别和小型关系类型识别子集上取得了接近天花板的性能,但在关系预测和双跳推理方面仍然存在困难。此外,短的KG片段对某些模型有益,但会降低其他模型的性能。而且,输出格式的可靠性会极大地影响在约束多项选择设置下测量的性能,突出了响应有效性在基于基准的评估中的关键作用。因此,MHGraphBench应被解释为评估在约束多项选择界面下与PrimeKG的精选精神健康切片的协议,而不是直接评估现实世界的临床安全性。

🔬 方法详解

问题定义:论文旨在解决如何系统性地评估大型语言模型(LLMs)在精神健康知识领域的掌握程度和推理能力的问题。现有方法缺乏一个专门针对精神健康领域的、基于知识图谱的基准测试,难以准确衡量LLMs在该领域的表现,并且无法有效识别LLMs在知识应用方面的不足。

核心思路:论文的核心思路是构建一个基于精神健康知识图谱(PrimeKG)的基准测试MHGraphBench,通过设计一系列任务来评估LLMs在实体识别、关系判断和多跳推理方面的能力。该基准测试提供KG支持的答案和受控的负选项,从而能够更准确地衡量LLMs的性能。

技术框架:MHGraphBench的整体框架包括以下几个主要模块: 1. 数据构建:从PrimeKG中提取精神健康相关的实体和关系,构建基准测试数据集。 2. 任务设计:设计九个任务族,涵盖实体识别、关系判断和双跳推理等不同类型的任务。 3. 评估指标:使用准确率等指标来评估LLMs在各个任务上的表现。 4. 模型测试:在多个闭源和开源LLMs上进行测试,分析其在精神健康知识方面的能力。 5. 结果分析:分析实验结果,识别LLMs的优势和不足,并探讨影响性能的因素。

关键创新:论文的关键创新在于构建了一个专门针对精神健康领域的、基于知识图谱的基准测试MHGraphBench。该基准测试能够更准确地评估LLMs在该领域的知识掌握程度和推理能力,并为后续研究提供了一个标准化的评估平台。此外,论文还揭示了LLMs在识别和判断之间存在差距,并强调了输出格式对评估结果的影响。

关键设计:MHGraphBench的关键设计包括: 1. 任务类型:设计了九个任务族,涵盖实体识别、关系判断和双跳推理等不同类型的任务,以全面评估LLMs的能力。 2. 负样本生成:使用受控的负选项,以提高评估的准确性。 3. 输出格式:采用多项选择题的形式,并分析了输出格式对评估结果的影响。 4. 知识图谱片段:实验中使用了从知识图谱中提取的短片段,以评估其对LLMs性能的影响。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,领先的LLM在实体类型识别和小型关系类型识别子集上取得了接近天花板的性能,但在关系预测和双跳推理方面仍然存在困难。此外,短的KG片段对某些模型有益,但会降低其他模型的性能。输出格式的可靠性会极大地影响在约束多项选择设置下测量的性能。这些结果揭示了LLM在精神健康知识应用方面的局限性,并强调了基准测试设计的重要性。

🎯 应用场景

该研究成果可应用于评估和改进大语言模型在精神健康领域的应用,例如辅助诊断、心理咨询和健康管理。通过MHGraphBench,可以更好地了解LLM在精神健康知识方面的能力,并指导模型开发人员改进模型,使其更安全、更可靠地应用于临床实践。此外,该基准测试也可以用于评估其他类型的知识密集型任务。

📄 摘要(原文)

Large language models (LLMs) are increasingly used in the mental health domain, yet it remains unclear how well they capture related biomedical knowledge and how reliably they apply it to clinically salient structured judgments. Here, we present a knowledge-graph (KG)-grounded benchmark for assessing LLMs on mental-health entity recognition, relation judgment, and two-hop reasoning. The benchmark is derived from PrimeKG and comprises nine task families with KG-supported answers and controlled negative options. Experiments across 15 closed- and open-source LLMs reveal a persistent recognition-to-judgment gap: leading models achieve near-ceiling performance on entity typing and on the small relation-typing subset, yet they still struggle with relation prediction and two-hop reasoning. Additionally, short KG-derived snippets benefit some models but degrade performance for others. Moreover, output-format reliability can substantially influence measured performance under constrained multiple-choice settings, highlighting the critical role of response validity in benchmark-based evaluation. MHGraphBench should therefore be interpreted as evaluating agreement with a curated mental-health slice of PrimeKG under a constrained multiple-choice interface, rather than as a direct assessment of real-world clinical safety.