Mapping Trustworthiness in Large Language Models: A Bibliometric Analysis Bridging Theory to Practice

📄 arXiv: 2503.04785v3 📥 PDF

作者: José Siqueira de Cerqueira, Kai-Kristian Kemell, Rebekah Rousi, Nannan Xi, Juho Hamari, Pekka Abrahamsson

分类: cs.CL, cs.CY

发布日期: 2025-02-27 (更新: 2025-05-04)


💡 一句话要点

通过文献计量分析,揭示大型语言模型可信度理论与实践的差距及提升策略。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 可信度 文献计量分析 伦理 透明性 可解释性 可靠性 检索增强生成

📋 核心要点

  1. 现有大型语言模型的可信度定义和实施缺乏共识,导致伦理风险和实际应用障碍。
  2. 通过文献计量分析,识别可信度的关键维度和提升策略,弥合理论与实践的差距。
  3. 研究揭示了开发者在可信度实施中的核心作用,并强调了标准化框架和监管措施的重要性。

📝 摘要(中文)

大型语言模型(LLM)的快速普及引发了对其可信度和伦理问题的严重关注。尽管LLM在各个领域被广泛采用,但如何定义和实施可信度仍未达成明确共识。本研究旨在通过分析研究趋势、可信度定义和实践技术,弥合理论讨论与实际应用之间的差距。我们使用Bibliometrix对Web of Science(2019-2025)中2006篇出版物进行了文献计量映射分析,并手动审查了68篇论文。我们发现研究重点从传统AI伦理讨论转向LLM可信度框架。我们识别出18种不同的信任/可信度定义,其中透明性、可解释性和可靠性是最常见的维度。我们确定了20种提高LLM可信度的策略,其中微调和检索增强生成(RAG)最为突出。大多数策略由开发者驱动,并在后训练阶段应用。一些作者提出了零散的术语,而不是统一的框架,导致了“伦理洗白”的风险,即采用伦理话语而没有真正的监管承诺。我们的研究结果强调了理论分类与实际实施之间持续存在的差距,开发者在实施信任方面的关键作用,并呼吁建立标准化框架和更强有力的监管措施,以实现LLM的可信和合乎伦理的部署。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)可信度定义和实践应用之间存在的差距问题。现有方法存在的问题包括:缺乏统一的可信度定义和评估标准,理论研究与实际应用脱节,以及存在“伦理洗白”的风险,即表面上关注伦理,但缺乏实际的监管承诺。

核心思路:论文的核心思路是通过对现有文献进行系统的文献计量分析和人工审查,识别LLM可信度的关键维度、提升策略和研究趋势,从而为弥合理论与实践的差距提供指导。通过分析大量文献,可以发现当前研究的重点和不足,并为未来的研究方向提供参考。

技术框架:论文的技术框架主要包括以下几个阶段:1) 数据收集:从Web of Science数据库收集2019-2025年间发表的关于LLM可信度的相关文献,共计2006篇。2) 文献计量分析:使用Bibliometrix软件对收集到的文献进行文献计量分析,包括关键词共现分析、作者合作网络分析、主题演化分析等。3) 人工审查:对文献计量分析的结果进行人工审查,重点关注可信度的定义、提升策略和伦理问题。4) 结果总结与分析:对文献计量分析和人工审查的结果进行总结和分析,识别LLM可信度的关键维度、提升策略和研究趋势。

关键创新:论文的关键创新在于:1) 采用文献计量分析的方法,对LLM可信度领域的研究现状进行了全面的梳理和分析,为研究者提供了一个宏观的视角。2) 识别了18种不同的信任/可信度定义,并总结了20种提高LLM可信度的策略,为实际应用提供了参考。3) 强调了开发者在可信度实施中的关键作用,并呼吁建立标准化框架和更强有力的监管措施。

关键设计:论文的关键设计包括:1) 使用Bibliometrix软件进行文献计量分析,该软件提供了丰富的分析工具和可视化功能。2) 对文献进行人工审查,以确保分析结果的准确性和可靠性。3) 对可信度的定义和提升策略进行分类和总结,以便于研究者和开发者使用。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现透明性、可解释性和可靠性是LLM可信度的最常见维度。微调和检索增强生成(RAG)是提高LLM可信度的最突出策略。研究还揭示了理论与实践之间存在差距,以及开发者在实施信任方面的关键作用。这些发现为未来的研究和实践提供了重要的指导。

🎯 应用场景

该研究成果可应用于指导LLM的开发和部署,提高LLM的可信度和伦理性。例如,开发者可以参考研究中总结的提升策略,改进LLM的训练方法和推理过程,从而提高LLM的可靠性、透明性和可解释性。监管机构可以参考研究中提出的标准化框架和监管措施,制定相应的政策和法规,以确保LLM的合规性和安全性。此外,该研究还可以为未来的LLM可信度研究提供参考。

📄 摘要(原文)

The rapid proliferation of Large Language Models (LLMs) has raised significant trustworthiness and ethical concerns. Despite the widespread adoption of LLMs across domains, there is still no clear consensus on how to define and operationalise trustworthiness. This study aims to bridge the gap between theoretical discussion and practical implementation by analysing research trends, definitions of trustworthiness, and practical techniques. We conducted a bibliometric mapping analysis of 2,006 publications from Web of Science (2019-2025) using the Bibliometrix, and manually reviewed 68 papers. We found a shift from traditional AI ethics discussion to LLM trustworthiness frameworks. We identified 18 different definitions of trust/trustworthiness, with transparency, explainability and reliability emerging as the most common dimensions. We identified 20 strategies to enhance LLM trustworthiness, with fine-tuning and retrieval-augmented generation (RAG) being the most prominent. Most of the strategies are developer-driven and applied during the post-training phase. Several authors propose fragmented terminologies rather than unified frameworks, leading to the risks of "ethics washing," where ethical discourse is adopted without a genuine regulatory commitment. Our findings highlight: persistent gaps between theoretical taxonomies and practical implementation, the crucial role of the developer in operationalising trust, and call for standardised frameworks and stronger regulatory measures to enable trustworthy and ethical deployment of LLMs.