Choosing a Model, Shaping a Future: Comparing LLM Perspectives on Sustainability and its Relationship with AI
作者: Annika Bush, Meltem Aksoy, Markus Pauly, Greta Ontrup
分类: cs.CY, cs.AI
发布日期: 2025-05-20 (更新: 2025-09-30)
备注: Accepted for EMNLP Conference
期刊: Conference on Empirical Methods in Natural Language Processing (EMNLP 2025)
DOI: 10.18653/v1/2025.findings-emnlp.939
💡 一句话要点
评估LLM在可持续性问题上的偏差,揭示模型选择对组织策略的影响
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 可持续性 认知偏差 心理测量学 模型评估
📋 核心要点
- 组织日益依赖AI进行可持续性决策,但LLM中固有的偏见和视角亟待理解。
- 本研究通过心理测量问卷,系统评估了五个LLM对可持续性和AI关系的理解。
- 实验揭示了模型间在可持续性认知和责任归属上的显著差异,影响组织策略。
📝 摘要(中文)
本研究系统地调查了五个先进的大型语言模型(LLM)——Claude、DeepSeek、GPT、LLaMA和Mistral——如何概念化可持续性及其与人工智能的关系。研究采用经过验证的、心理测量学的可持续性相关问卷,每个模型进行100次测试,以捕捉响应模式和变异性。结果表明,模型之间存在显著差异:例如,GPT对人工智能和可持续性的兼容性持怀疑态度,而LLaMA则表现出极端的科技乐观主义,在多个可持续发展目标(SDG)上获得了满分。模型在人工智能和可持续性整合方面的机构责任归属上也存在分歧,这对技术治理方法具有重要意义。研究结果表明,模型选择可能会显著影响组织的可持续性战略,强调在部署LLM进行可持续性相关决策时,需要意识到模型特定的偏差。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在可持续性问题上的固有偏见和视角问题。现有方法缺乏对不同LLM在可持续性认知上的系统性评估,导致组织在利用LLM进行可持续性决策时,可能受到模型偏差的影响。这种偏差可能导致不准确或有偏见的策略制定,阻碍可持续发展目标的实现。
核心思路:论文的核心思路是通过心理测量学问卷,量化评估不同LLM对可持续性及其与人工智能关系的理解。通过对比不同模型的回答模式和变异性,揭示模型间的认知差异和潜在偏见。这种方法旨在为组织选择合适的LLM,以及制定更客观、全面的可持续性策略提供依据。
技术框架:研究的技术框架主要包括以下几个阶段:1) 选择五个代表性的LLM(Claude、DeepSeek、GPT、LLaMA和Mistral);2) 设计并实施经过验证的、心理测量学的可持续性相关问卷;3) 对每个模型进行100次问卷测试,收集响应数据;4) 对收集到的数据进行统计分析,比较不同模型之间的回答模式和变异性;5) 分析模型在可持续发展目标(SDG)和机构责任归属上的差异。
关键创新:该研究的关键创新在于:1) 系统性地评估了多个主流LLM在可持续性问题上的认知偏差;2) 采用心理测量学方法,量化了LLM对可持续性概念的理解;3) 揭示了模型选择对组织可持续性策略的潜在影响。与现有方法相比,该研究更注重对LLM内在认知偏差的分析,而非仅仅关注其在特定任务上的性能。
关键设计:研究的关键设计包括:1) 问卷的选择:采用经过验证的心理测量学问卷,确保评估的有效性和可靠性;2) 测试次数:每个模型进行100次测试,以捕捉响应的变异性;3) 数据分析方法:采用统计分析方法,比较不同模型之间的回答模式和差异;4) 模型选择:选择了五个具有代表性的LLM,覆盖了不同的架构和训练数据。
🖼️ 关键图片
📊 实验亮点
研究发现,GPT对AI与可持续性的兼容性持怀疑态度,而LLaMA则表现出极端的科技乐观主义,在多个可持续发展目标上获得满分。不同模型在机构责任归属上也存在显著差异。这些结果表明,模型选择对组织可持续性策略具有重要影响,强调了在部署LLM进行可持续性相关决策时,需要充分考虑模型特定的偏差。
🎯 应用场景
该研究成果可应用于多个领域,包括企业可持续发展战略制定、政府政策咨询、以及AI伦理治理。通过了解不同LLM在可持续性问题上的认知偏差,组织可以选择更合适的模型,避免因模型偏差而导致的不良决策。此外,该研究还可以为AI开发者提供指导,帮助他们设计更客观、公正的AI系统,促进可持续发展目标的实现。
📄 摘要(原文)
As organizations increasingly rely on AI systems for decision support in sustainability contexts, it becomes critical to understand the inherent biases and perspectives embedded in Large Language Models (LLMs). This study systematically investigates how five state-of-the-art LLMs -- Claude, DeepSeek, GPT, LLaMA, and Mistral - conceptualize sustainability and its relationship with AI. We administered validated, psychometric sustainability-related questionnaires - each 100 times per model -- to capture response patterns and variability. Our findings revealed significant inter-model differences: For example, GPT exhibited skepticism about the compatibility of AI and sustainability, whereas LLaMA demonstrated extreme techno-optimism with perfect scores for several Sustainable Development Goals (SDGs). Models also diverged in attributing institutional responsibility for AI and sustainability integration, a results that holds implications for technology governance approaches. Our results demonstrate that model selection could substantially influence organizational sustainability strategies, highlighting the need for awareness of model-specific biases when deploying LLMs for sustainability-related decision-making.