From Visual Perception to Deep Empathy: An Automated Assessment Framework for House-Tree-Person Drawings Using Multimodal LLMs and Multi-Agent Collaboration

📄 arXiv: 2512.21360v1 📥 PDF

作者: Shuide Wen, Yu Sun, Beier Ku, Zhi Gao, Lijun Ma, Yang Yang, Can Jiao

分类: cs.AI, eess.SY

发布日期: 2025-12-23

备注: 16 pages, 8 figures


💡 一句话要点

提出基于多模态LLM和多智能体协作的HTP绘画自动评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 房树人测试 多模态大语言模型 多智能体协作 计算心理学 人工智能 心理评估 视觉理解

📋 核心要点

  1. 传统HTP测试依赖主观经验,缺乏统一的量化标准,导致评估结果存在偏差。
  2. 论文提出多智能体框架,利用多模态LLM进行图像理解和心理推断,模拟专家评估过程。
  3. 实验表明,该框架的解读与专家解读具有高语义相似度,并能生成具有生态效度的心理报告。

📝 摘要(中文)

本研究旨在解决临床心理学中房树人(HTP)绘画测试长期存在的异质评分标准、依赖主观经验以及缺乏统一量化编码系统等问题。研究结果表明,多模态大型语言模型(MLLM)的解读与人类专家解读之间的平均语义相似度约为0.75(标准差约为0.05)。在结构导向的专家数据集中,该相似度上升至0.85,表明具备专家级基线理解能力。定性分析表明,通过整合社会心理学视角和去污名化叙事,多智能体系统有效地纠正了视觉幻觉,并生成了具有高生态效度和内部连贯性的心理报告。研究证实了多模态大型模型作为投射评估标准化工具的潜力,并提出了一种通过划分角色将特征识别与心理推断分离的多智能体框架,为数字心理健康服务提供了一种新的范式。

🔬 方法详解

问题定义:论文旨在解决房树人(HTP)绘画测试中评估标准不统一、过度依赖评估者主观经验的问题。现有方法缺乏客观的量化分析,导致评估结果难以复现,影响了HTP测试的可靠性和应用。

核心思路:论文的核心思路是利用多模态大型语言模型(MLLM)理解HTP绘画的视觉信息,并结合心理学知识进行推断,从而实现自动化的、标准化的评估。通过多智能体协作,模拟心理学家的评估过程,提高评估的准确性和可靠性。

技术框架:该框架包含以下主要模块:1) 图像输入模块,接收HTP绘画图像;2) MLLM视觉理解模块,提取图像特征并生成初步解读;3) 多智能体协作模块,包含多个智能体,分别负责不同的心理学视角(如社会心理学),并进行去污名化叙事,修正MLLM的视觉幻觉;4) 报告生成模块,整合各智能体的分析结果,生成最终的心理评估报告。

关键创新:该研究的关键创新在于:1) 将多模态LLM应用于HTP绘画测试,实现了视觉信息到心理评估的自动化转换;2) 提出了多智能体协作框架,模拟了心理学家的综合评估过程,提高了评估的准确性和可靠性;3) 通过去污名化叙事,避免了对被评估者的负面标签,提高了评估的伦理性和社会价值。

关键设计:论文中,MLLM的选择和训练是关键。具体使用的MLLM类型未知,但需要具备强大的图像理解和文本生成能力。多智能体之间的协作机制也至关重要,需要设计合理的通信协议和知识共享机制。此外,如何将心理学知识融入到智能体的推理过程中,以及如何评估和优化智能体的性能,都是需要考虑的关键设计。

📊 实验亮点

实验结果表明,MLLM的解读与人类专家解读的平均语义相似度达到0.75,在结构导向的专家数据集中,相似度高达0.85,表明该框架具备专家级别的理解能力。定性分析表明,多智能体系统能够有效纠正视觉幻觉,生成具有高生态效度和内部连贯性的心理报告。

🎯 应用场景

该研究成果可应用于数字心理健康服务,为心理咨询师提供辅助诊断工具,提高评估效率和客观性。同时,该框架也可用于大规模心理健康筛查,及早发现潜在心理问题。未来,该技术有望推广到其他投射测验,推动心理评估的自动化和智能化。

📄 摘要(原文)

Background: The House-Tree-Person (HTP) drawing test, introduced by John Buck in 1948, remains a widely used projective technique in clinical psychology. However, it has long faced challenges such as heterogeneous scoring standards, reliance on examiners subjective experience, and a lack of a unified quantitative coding system. Results: Quantitative experiments showed that the mean semantic similarity between Multimodal Large Language Model (MLLM) interpretations and human expert interpretations was approximately 0.75 (standard deviation about 0.05). In structurally oriented expert data sets, this similarity rose to 0.85, indicating expert-level baseline comprehension. Qualitative analyses demonstrated that the multi-agent system, by integrating social-psychological perspectives and destigmatizing narratives, effectively corrected visual hallucinations and produced psychological reports with high ecological validity and internal coherence. Conclusions: The findings confirm the potential of multimodal large models as standardized tools for projective assessment. The proposed multi-agent framework, by dividing roles, decouples feature recognition from psychological inference and offers a new paradigm for digital mental-health services. Keywords: House-Tree-Person test; multimodal large language model; multi-agent collaboration; cosine similarity; computational psychology; artificial intelligence