MentraSuite: Post-Training Large Language Models for Mental Health Reasoning and Assessment

📄 arXiv: 2512.09636v2 📥 PDF

作者: Mengxi Xiao, Kailai Yang, Pengde Zhao, Enze Zhang, Ziyan Kuang, Zhiwei Liu, Weiguang Han, Shu Liao, Lianting Huang, Jinpeng Hu, Min Peng, Qianqian Xie, Sophia Ananiadou

分类: cs.CL

发布日期: 2025-12-10 (更新: 2025-12-16)


💡 一句话要点

MentraSuite:用于心理健康推理和评估的后训练大型语言模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理健康 大型语言模型 推理能力 基准测试 后训练 强化学习 一致性 可靠性

📋 核心要点

  1. 现有心理健康领域的大语言模型在推理的完整性、一致性和可靠性方面存在不足,限制了其在实际应用中的价值。
  2. MentraSuite框架通过MentraBench基准和Mindora模型,着重提升LLM在心理健康推理方面的能力,特别是推理的可靠性和一致性。
  3. Mindora模型在MentraBench基准测试中取得了最佳平均性能,并在推理可靠性方面表现出色,验证了该框架的有效性。

📝 摘要(中文)

心理健康障碍影响着全球数亿人,网络已成为获取支持、信息和评估的主要媒介。大型语言模型(LLM)提供了可扩展且易于访问的帮助,但当其推理不完整、不一致或缺乏依据时,在心理健康环境中的部署仍然存在风险。现有的心理学LLM强调情感理解或知识回忆,但忽略了评估、诊断、干预计划、抽象和验证所需的逐步、临床对齐的推理。为了解决这些问题,我们推出了MentraSuite,这是一个用于推进可靠心理健康推理的统一框架。我们提出了MentraBench,这是一个全面的基准,涵盖五个核心推理方面、六个任务和13个数据集,评估任务性能和五个维度上的推理质量:简洁性、连贯性、避免幻觉、任务理解和内部一致性。我们进一步提出了Mindora,一个通过混合SFT-RL框架优化的后训练模型,具有不一致性检测奖励,以强制执行忠实和连贯的推理。为了支持训练,我们使用一种新颖的推理轨迹生成策略构建高质量的轨迹,该策略有策略地过滤困难样本,并应用结构化的、面向一致性的重写过程来生成简洁、可读且平衡良好的轨迹。在评估的20个LLM中,Mindora在MentraBench上实现了最高的平均性能,并在推理可靠性方面表现出色,证明了其在复杂心理健康场景中的有效性。

🔬 方法详解

问题定义:现有心理健康领域的大语言模型虽然在情感理解和知识回忆方面有所进展,但在进行临床级别的推理(如评估、诊断、干预计划等)时,往往缺乏必要的步骤性、一致性和可靠性。这些模型容易产生不完整、不一致甚至虚假的推理结果,限制了它们在实际心理健康场景中的应用。

核心思路:MentraSuite的核心思路是通过构建一个全面的基准测试(MentraBench)来评估和提升LLM在心理健康推理方面的能力。同时,通过后训练的方式,利用混合SFT-RL框架优化模型(Mindora),并引入不一致性检测奖励,从而强制模型进行忠实和连贯的推理。

技术框架:MentraSuite包含两个主要组成部分:MentraBench基准测试和Mindora模型。MentraBench用于评估LLM在五个核心推理方面(简洁性、连贯性、避免幻觉、任务理解和内部一致性)的性能。Mindora模型则通过混合SFT-RL框架进行后训练,该框架结合了监督微调(SFT)和强化学习(RL),以优化模型的推理能力。训练过程中,使用一种新颖的推理轨迹生成策略来构建高质量的训练数据。

关键创新:MentraSuite的关键创新在于其综合性的评估基准MentraBench和混合SFT-RL训练框架。MentraBench不仅评估任务性能,还深入评估推理质量的多个维度。混合SFT-RL框架则通过结合监督学习和强化学习的优势,有效地提升了模型的推理能力和可靠性。此外,不一致性检测奖励的引入,进一步增强了模型推理的一致性。

关键设计:推理轨迹生成策略是Mindora训练的关键。该策略首先过滤掉困难样本,然后应用结构化的、面向一致性的重写过程,生成简洁、可读且平衡良好的训练轨迹。在混合SFT-RL框架中,SFT阶段用于初始化模型参数,RL阶段则使用不一致性检测奖励来优化模型的推理策略。具体的奖励函数设计和RL算法选择(未知)是影响模型性能的关键因素。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Mindora模型在MentraBench基准测试中取得了最高的平均性能,显著优于其他20个评估的LLM。特别是在推理可靠性方面,Mindora表现出色,证明了其在复杂心理健康场景中的有效性。具体的性能提升幅度(未知)需要参考论文中的详细实验数据。

🎯 应用场景

MentraSuite的研究成果可以应用于开发更可靠、更有效的心理健康辅助工具。例如,可以用于辅助心理健康评估、提供个性化的干预建议、以及支持心理健康教育。通过提高LLM在心理健康推理方面的能力,可以为更多人提供可扩展且易于访问的心理健康支持。

📄 摘要(原文)

Mental health disorders affect hundreds of millions globally, and the Web now serves as a primary medium for accessing support, information, and assessment. Large language models (LLMs) offer scalable and accessible assistance, yet their deployment in mental-health settings remains risky when their reasoning is incomplete, inconsistent, or ungrounded. Existing psychological LLMs emphasize emotional understanding or knowledge recall but overlook the step-wise, clinically aligned reasoning required for appraisal, diagnosis, intervention planning, abstraction, and verification. To address these issues, we introduce MentraSuite, a unified framework for advancing reliable mental-health reasoning. We propose MentraBench, a comprehensive benchmark spanning five core reasoning aspects, six tasks, and 13 datasets, evaluating both task performance and reasoning quality across five dimensions: conciseness, coherence, hallucination avoidance, task understanding, and internal consistency. We further present Mindora, a post-trained model optimized through a hybrid SFT-RL framework with an inconsistency-detection reward to enforce faithful and coherent reasoning. To support training, we construct high-quality trajectories using a novel reasoning trajectory generation strategy, that strategically filters difficult samples and applies a structured, consistency-oriented rewriting process to produce concise, readable, and well-balanced trajectories. Across 20 evaluated LLMs, Mindora achieves the highest average performance on MentraBench and shows remarkable performances in reasoning reliability, demonstrating its effectiveness for complex mental-health scenarios.