The use of GPT-4o and Other Large Language Models for the Improvement and Design of Self-Assessment Scales for Measurement of Interpersonal Communication Skills
作者: Goran Bubaš
分类: cs.AI
发布日期: 2024-09-21
备注: 41 pages
💡 一句话要点
利用GPT-4o等大型语言模型改进人际沟通技能自评量表的设计
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 人际沟通技能 自评量表 心理测量 自动化设计
📋 核心要点
- 传统人际沟通技能自评量表设计耗时耗力,且依赖专家经验,存在主观性和效率问题。
- 论文提出利用GPT-4o等LLM的语言理解和推理能力,辅助量表条目的选择、改进和内容效度评估。
- 通过案例研究展示了LLM在自动化条目生成和应用方面的潜力,并提供了实用的LLM提示。
📝 摘要(中文)
本文探讨了OpenAI的ChatGPT(GPT-4和GPT-4o)以及其他大型语言模型(LLMs),如微软的Copilot、谷歌的Gemini 1.5 Pro和Anthropic的Claude 3.5 Sonnet,在科学研究各个阶段的有效应用。这些模型在各种语言任务和推理方面的表现接近或高于平均人类水平,并且能力迅速提升,使其具备了类似于较高水平的心理理论能力。LLMs目前处理人类心理学和沟通信息的能力为它们在人格心理学和人际沟通技能领域中的科学应用创造了机会。本文阐述了GPT-4o和其他先进LLMs在设计人际沟通技能自评量表中的典型任务的可能用途,例如量表条目的选择和改进以及量表内容效度的评估。同时展示了自动生成和应用条目的潜力,案例研究附带了可用于这些目的的LLMs提示。最后,总结了在评估、设计和改进人际沟通技能自评量表过程中使用LLMs的潜在益处。
🔬 方法详解
问题定义:论文旨在解决人际沟通技能自评量表设计中效率低、主观性强的问题。现有方法依赖专家经验,耗时且难以保证量表的客观性和全面性。此外,量表条目的生成和筛选过程也较为繁琐。
核心思路:论文的核心思路是利用大型语言模型(LLMs)在自然语言处理和推理方面的强大能力,自动化或半自动化地完成量表设计中的关键步骤。LLMs能够理解人类心理学和沟通信息,从而辅助条目选择、改进和内容效度评估。
技术框架:论文采用案例研究的方式,展示了LLMs在量表设计中的应用。主要流程包括:1) 使用LLMs生成候选条目;2) 利用LLMs评估现有条目的质量并提出改进建议;3) 使用LLMs评估量表的内容效度;4) 探索LLMs自动生成和应用条目的潜力。每个步骤都伴随着具体的LLM提示示例。
关键创新:论文的关键创新在于将LLMs应用于人际沟通技能自评量表的设计过程,探索了LLMs在自动化条目生成、评估和改进方面的潜力。与传统方法相比,该方法有望提高量表设计的效率和客观性。
关键设计:论文侧重于展示LLMs的应用方法,而非提出新的技术细节。关键设计在于针对不同的量表设计任务,设计合适的LLM提示。例如,可以使用提示语引导LLM生成与特定人际沟通技能相关的条目,或者评估现有条目的清晰度和相关性。
📊 实验亮点
论文通过案例研究展示了GPT-4o等LLMs在量表条目选择、改进和内容效度评估方面的有效性。虽然没有提供具体的性能数据,但案例表明LLMs能够生成高质量的候选条目,并提供有价值的改进建议,从而显著提升量表设计的效率和质量。
🎯 应用场景
该研究成果可应用于心理学、教育学、管理学等领域,用于开发更高效、客观的人际沟通技能评估工具。通过自动化量表设计流程,可以降低开发成本,并加速相关研究的进展。未来,该方法还可扩展到其他类型的心理测量工具设计。
📄 摘要(原文)
OpenAI's ChatGPT (GPT-4 and GPT-4o) and other Large Language Models (LLMs) like Microsoft's Copilot, Google's Gemini 1.5 Pro, and Antrophic's Claude 3.5 Sonnet can be effectively used in various phases of scientific research. Their performance in diverse verbal tasks and reasoning is close to or above the average human level and rapidly increasing, providing those models with a capacity that resembles a relatively high level of theory of mind. The current ability of LLMs to process information about human psychology and communication creates an opportunity for their scientific use in the fields of personality psychology and interpersonal communication skills. This article illustrates the possible uses of GPT-4o and other advanced LLMs for typical tasks in designing self-assessment scales for interpersonal communication skills measurement like the selection and improvement of scale items and evaluation of content validity of scales. The potential for automated item generation and application is illustrated as well. The case study examples are accompanied by prompts for LLMs that can be useful for these purposes. Finally, a summary is provided of the potential benefits of using LLMs in the process of evaluation, design, and improvement of interpersonal communication skills self-assessment scales.