Comprehensive Analysis of Transparency and Accessibility of ChatGPT, DeepSeek, And other SoTA Large Language Models
作者: Ranjan Sapkota, Shaina Raza, Manoj Karkee
分类: cs.SE, cs.AI, cs.CL
发布日期: 2025-02-21
💡 一句话要点
系统性分析ChatGPT、DeepSeek等SoTA大语言模型的透明度和可访问性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 透明度 可访问性 开源 开放权重 ChatGPT DeepSeek
📋 核心要点
- 现有研究缺乏对SoTA大语言模型透明度和可访问性的系统性分析,阻碍了对这些模型开放程度的客观评估。
- 该研究从开源和开放权重两个角度,对100多个SoTA大语言模型进行全面分析,评估其透明度和可访问性。
- 研究发现,即使被标记为开源的模型,也可能在训练数据、代码、权重可访问性等方面存在不透明的情况。
📝 摘要(中文)
尽管关于开源人工智能(AI)的讨论日益增多,但现有研究缺乏对最先进(SoTA)大语言模型(LLM)的透明度和可访问性的讨论。开源倡议组织(OSI)最近发布了其首个正式的开源软件定义。该定义与标准字典定义和已发表的少量文献相结合,为更广泛地访问LLM等AI模型提供了一个初步框架,但还需要更多的工作来捕捉AI开放性的独特动态。此外,还出现了关于“开放清洗”的担忧,即模型声称开放但缺乏完全透明度,这限制了这些模型的可重复性、偏差缓解和领域适应性。在此背景下,我们的研究批判性地分析了过去五年的SoTA LLM,包括ChatGPT、DeepSeek、LLaMA等,以评估它们对透明度标准的遵守情况以及部分开放的影响。具体来说,我们从两个角度考察透明度和可访问性:开源模型与开放权重模型。我们的研究结果表明,虽然一些模型被标记为开源,但这并不一定意味着它们是完全开源的。即使在最好的情况下,开源模型通常也不报告模型训练数据、代码以及关键指标,如权重可访问性和碳排放。据我们所知,这是第一个通过开源和开放权重模型的双重视角系统地检查100多个不同的SoTA LLM的透明度和可访问性的研究。研究结果为进一步研究开辟了道路,并呼吁负责任和可持续的AI实践,以确保更大的透明度、问责制和这些模型的道德部署。
🔬 方法详解
问题定义:现有的大语言模型(LLM)虽然发展迅速,但其透明度和可访问性参差不齐。许多模型声称是“开源”的,但实际上可能在训练数据、代码、模型权重等方面存在限制,导致研究人员难以复现结果、缓解偏差或进行领域自适应。因此,需要一种系统性的方法来评估LLM的透明度和可访问性,揭示潜在的“开放清洗”现象。
核心思路:该研究的核心思路是从两个维度评估LLM的透明度和可访问性:开源模型和开放权重模型。开源模型是指遵循开源倡议组织(OSI)定义的模型,而开放权重模型是指公开了模型权重的模型。通过对比分析不同LLM在这两个维度上的表现,可以更全面地了解其开放程度。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 收集过去五年内的SoTA LLM,包括ChatGPT、DeepSeek、LLaMA等;2) 确定评估透明度和可访问性的指标,例如训练数据是否公开、代码是否开源、权重是否可访问、碳排放量是否披露等;3) 针对每个LLM,收集相关信息并进行评估;4) 对比分析不同LLM在不同指标上的表现,揭示其开放程度的差异。
关键创新:该研究的关键创新在于:1) 提出了一个系统性的框架来评估LLM的透明度和可访问性;2) 从开源和开放权重两个维度对LLM进行评估,更全面地揭示其开放程度;3) 对100多个SoTA LLM进行了评估,提供了丰富的实证数据。
关键设计:该研究的关键设计在于选择合适的评估指标。这些指标需要能够反映LLM的各个方面的开放程度,例如训练数据的规模和来源、代码的完整性和可读性、权重的可访问性和可修改性、碳排放量的计算方法等。此外,还需要考虑指标的可获取性和可验证性,确保评估结果的可靠性。
🖼️ 关键图片
📊 实验亮点
该研究对100多个SoTA LLM进行了系统性评估,发现即使被标记为开源的模型,也可能在训练数据、代码、权重可访问性等方面存在不透明的情况。例如,许多开源模型没有报告其训练数据,这使得研究人员难以评估模型的偏差和泛化能力。
🎯 应用场景
该研究的成果可以应用于多个领域。首先,它可以帮助研究人员更好地了解LLM的开放程度,从而选择更适合自己研究的模型。其次,它可以促进LLM的透明度和可访问性,推动AI的负责任发展。最后,它可以为监管机构提供参考,制定更合理的AI监管政策。
📄 摘要(原文)
Despite increasing discussions on open-source Artificial Intelligence (AI), existing research lacks a discussion on the transparency and accessibility of state-of-the-art (SoTA) Large Language Models (LLMs). The Open Source Initiative (OSI) has recently released its first formal definition of open-source software. This definition, when combined with standard dictionary definitions and the sparse published literature, provide an initial framework to support broader accessibility to AI models such as LLMs, but more work is essential to capture the unique dynamics of openness in AI. In addition, concerns about open-washing, where models claim openness but lack full transparency, has been raised, which limits the reproducibility, bias mitigation, and domain adaptation of these models. In this context, our study critically analyzes SoTA LLMs from the last five years, including ChatGPT, DeepSeek, LLaMA, and others, to assess their adherence to transparency standards and the implications of partial openness. Specifically, we examine transparency and accessibility from two perspectives: open-source vs. open-weight models. Our findings reveal that while some models are labeled as open-source, this does not necessarily mean they are fully open-sourced. Even in the best cases, open-source models often do not report model training data, and code as well as key metrics, such as weight accessibility, and carbon emissions. To the best of our knowledge, this is the first study that systematically examines the transparency and accessibility of over 100 different SoTA LLMs through the dual lens of open-source and open-weight models. The findings open avenues for further research and call for responsible and sustainable AI practices to ensure greater transparency, accountability, and ethical deployment of these models.(DeepSeek transparency, ChatGPT accessibility, open source, DeepSeek open source)