Psycholinguistic Analyses in Software Engineering Text: A Systematic Literature Review
作者: Amirali Sajadi, Kostadin Damevski, Preetha Chatterjee
分类: cs.SE, cs.CL, cs.CY
发布日期: 2025-03-08 (更新: 2025-04-17)
💡 一句话要点
系统性回顾:利用心理语言学分析软件工程文本,揭示开发者心理状态与优化团队协作。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理语言学 软件工程 LIWC 系统性文献综述 团队协作 情感分析 人机交互
📋 核心要点
- 现有方法在理解软件工程中的人为因素方面存在不足,大型语言模型缺乏透明性和精确性,难以准确分析开发者心理状态。
- 该研究采用系统性文献综述,重点关注心理语言学工具LIWC在软件工程领域的应用,旨在全面评估其价值和局限性。
- 研究结果揭示了LIWC在分析团队沟通、预测Stack Overflow帖子删除以及比较AI生成文本和人类文本等方面的应用。
📝 摘要(中文)
背景:深入理解软件工程(SE)中的人为因素对于改善团队协作、决策制定和生产力至关重要。代码审查和聊天等沟通渠道提供了开发者心理和情绪状态的洞察。大型语言模型擅长文本分析,但缺乏透明度和精确性。心理语言学工具,如语言调查和词计数(LIWC),为文本中表现出的认知和情感过程提供了更清晰、可解释的见解。尽管LIWC在SE研究中被广泛使用,但尚未对其使用进行全面的综述。目的:本文旨在探讨心理语言学工具(特别是LIWC)的重要性,并对其在SE研究中的当前和潜在未来应用进行全面分析。方法:我们对六个主要数据库进行了系统性回顾,确定了43篇使用LIWC的SE相关论文。我们的分析侧重于五个研究问题。结果:我们的研究结果揭示了广泛的应用,包括分析团队沟通以检测开发者的情绪和个性,开发机器学习模型以预测被删除的Stack Overflow帖子,以及最近比较AI生成和人类编写的文本。LIWC主要用于来自项目管理平台(如GitHub)和问答论坛(如Stack Overflow)的数据。关键的BSE概念包括沟通、组织氛围和积极心理学。43篇论文中有26篇没有正式评估LIWC。人们对一些局限性提出了担忧,包括难以处理SE特定的词汇。结论:我们强调了心理语言学工具的潜力及其局限性,并提出了新的用例,以推进SE中人为因素的研究(例如,人-LLM对话中的偏见)。
🔬 方法详解
问题定义:论文旨在解决软件工程领域中,如何更有效、更透明地理解开发者心理状态和团队协作模式的问题。现有方法,特别是依赖大型语言模型的文本分析,虽然功能强大,但缺乏可解释性,难以深入洞察开发者的认知和情感过程。此外,现有研究缺乏对心理语言学工具(如LIWC)在软件工程领域应用的系统性评估。
核心思路:论文的核心思路是通过系统性文献综述,全面评估心理语言学工具LIWC在软件工程领域的应用现状、优势和局限性。通过分析已有的研究,揭示LIWC在理解开发者心理、优化团队协作、以及评估AI生成文本质量等方面的潜力。这种方法强调了可解释性和精确性,弥补了现有大型语言模型在这些方面的不足。
技术框架:该研究采用系统性文献综述的方法,主要包括以下阶段: 1. 确定研究问题:明确LIWC在软件工程中的应用和价值。 2. 文献检索:在六个主要数据库中检索相关论文。 3. 文献筛选:根据预定的标准筛选出符合要求的论文。 4. 数据提取:从筛选出的论文中提取关键信息,如研究目的、方法、数据来源、结果等。 5. 数据分析:对提取的数据进行分析和综合,回答研究问题。 6. 结果呈现:以综述的形式呈现研究结果。
关键创新:该研究的关键创新在于对LIWC在软件工程领域的应用进行了首次全面的系统性回顾。以往的研究往往侧重于特定场景或应用,缺乏对LIWC整体价值和局限性的评估。该研究通过系统性的方法,弥补了这一空白,为未来的研究提供了重要的参考。
关键设计:该研究的关键设计在于其严格的文献检索和筛选流程,以及对提取数据的深入分析。研究者制定了明确的检索策略和筛选标准,确保了综述的全面性和客观性。此外,研究者还对提取的数据进行了多维度的分析,包括研究目的、方法、数据来源、结果等,从而全面评估了LIWC在软件工程领域的应用价值。
🖼️ 关键图片
📊 实验亮点
该研究通过对43篇相关论文的系统性分析,揭示了LIWC在软件工程领域的广泛应用,包括情感分析、个性识别、以及AI生成文本评估。研究发现,LIWC主要应用于项目管理平台(如GitHub)和问答论坛(如Stack Overflow)的数据分析。然而,研究也指出,超过一半的论文没有对LIWC进行正式评估,并且LIWC在处理软件工程特定词汇方面存在局限性。
🎯 应用场景
该研究的潜在应用领域包括:优化软件开发团队的沟通和协作、早期发现开发者的负面情绪、评估AI生成代码的质量和风格、以及在软件工程教育中培养学生的沟通技能。实际价值在于提高软件开发的效率和质量,改善开发者的工作体验,并促进人机协作的和谐发展。未来影响可能包括开发更智能的软件开发工具,能够自动检测和解决团队协作中的问题。
📄 摘要(原文)
Context: A deeper understanding of human factors in software engineering (SE) is essential for improving team collaboration, decision-making, and productivity. Communication channels like code reviews and chats provide insights into developers' psychological and emotional states. While large language models excel at text analysis, they often lack transparency and precision. Psycholinguistic tools like Linguistic Inquiry and Word Count (LIWC) offer clearer, interpretable insights into cognitive and emotional processes exhibited in text. Despite its wide use in SE research, no comprehensive review of LIWC's use has been conducted. Objective: We examine the importance of psycholinguistic tools, particularly LIWC, and provide a thorough analysis of its current and potential future applications in SE research. Methods: We conducted a systematic review of six prominent databases, identifying 43 SE-related papers using LIWC. Our analysis focuses on five research questions. Results: Our findings reveal a wide range of applications, including analyzing team communication to detect developer emotions and personality, developing ML models to predict deleted Stack Overflow posts, and more recently comparing AI-generated and human-written text. LIWC has been primarily used with data from project management platforms (e.g., GitHub) and Q&A forums (e.g., Stack Overflow). Key BSE concepts include Communication, Organizational Climate, and Positive Psychology. 26 of 43 papers did not formally evaluate LIWC. Concerns were raised about some limitations, including difficulty handling SE-specific vocabulary. Conclusion: We highlight the potential of psycholinguistic tools and their limitations, and present new use cases for advancing the research of human factors in SE (e.g., bias in human-LLM conversations).