LLM-FACETS: A Privacy-Preserving Framework for Evaluating LLM Transparency and Accountability

📄 arXiv: 2605.31167v1 📥 PDF

作者: Tom Lucas, Alessio Buscemi, Alfredo Capozucca, German Castignani, Barbara Delacroix

分类: cs.AI

发布日期: 2026-05-29

备注: Submitted to ACM Journal on Responsible Computing, Special Section: Collaborative Methods and Tools for Engineering and Evaluating Transparency in AI. 28 pages 9 figures, 7 tables, 1 algorithm. Source code: https://github.com/Scriptor-Group/AIMVi


💡 一句话要点

LLM-FACETS:一个保护隐私的LLM透明性和问责性评估框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 LLM评估 隐私保护 开源框架 透明性 问责性 RAG评估 AI审计

📋 核心要点

  1. 现有LLM评估工具对非技术人员不友好,需要编程技能和复杂配置,且存在数据隐私泄露风险。
  2. LLM-FACETS框架通过浏览器界面和插件架构,降低了LLM评估门槛,并明确数据流,保护用户隐私。
  3. 该框架集成了多种指标和机制,用于评估LLM的事实性、认知校准和可重复性,并已通过交叉验证。

📝 摘要(中文)

为了负责任地部署大型语言模型(LLM),评估其输出在事实依据、认知校准和方法可重复性方面表现至关重要。然而,LLM的审计对于非技术从业者来说仍然难以实现:现有工具需要编程专业知识和复杂的环境设置,而云托管平台会将评估数据传输到外部服务,这为领域专家和法律上负责AI监管的合规人员设置了障碍。我们推出了LLM-FACETS(LLM FActuality Cross-EvaluaTion System),这是一个开源框架,具有浏览器可访问的界面和插件架构,围绕技术专家、领域专家和合规人员这三种从业者角色构建,这些角色反映了欧盟AI法案和NIST AI风险管理框架中确定的利益相关者类别。该架构明确了数据流:确定性指标(BLEU、ROUGE、BERTScore)完全在自托管服务器内运行,没有出站传输;LLM-judge指标显式地联系外部API,用户保留完全的凭据控制。该框架通过三种机制实现透明性:用于认知不确定性的token级别log-probability可视化、用于减轻judge偏差的多judge共识,以及用于检测和定位幻觉的RAG Triad指标(Faithfulness、Answer Relevance、Context Relevance)。插件架构允许集成任何新的指标或数据集,而无需修改评估流程。开源实现支持跨多个针对相同属性的指标进行交叉检查,确保可重复性,并将AI问责与构建被评估系统的团队分离。我们通过针对规范参考库交叉验证18个指标实现来验证该框架。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估工具通常需要专业的编程知识和复杂的环境配置,这使得非技术人员(如领域专家和合规人员)难以进行有效的审计。此外,许多云托管的评估平台会将评估数据传输到外部服务,存在潜在的隐私泄露风险。因此,如何构建一个易于使用、保护隐私且能有效评估LLM的框架是一个亟待解决的问题。

核心思路:LLM-FACETS的核心思路是构建一个开源的、基于浏览器的评估框架,该框架具有插件架构,可以方便地集成各种评估指标和数据集。通过明确的数据流控制,确保敏感数据不会被意外泄露。同时,该框架针对不同类型的用户(技术专家、领域专家、合规人员)提供定制化的界面和功能,降低使用门槛。

技术框架:LLM-FACETS的整体架构包括以下几个主要模块:1) 用户界面:提供基于浏览器的交互界面,方便用户上传数据、配置评估参数和查看评估结果。2) 评估引擎:负责执行各种评估指标,包括确定性指标(如BLEU、ROUGE、BERTScore)和LLM-judge指标。3) 数据流控制:明确定义数据的输入、处理和输出流程,确保敏感数据不会被传输到外部服务。4) 插件架构:允许用户方便地集成新的评估指标和数据集,而无需修改核心代码。5) 透明性机制:提供token级别的log-probability可视化,用于评估认知不确定性;采用多judge共识机制,减轻judge偏差;使用RAG Triad指标(Faithfulness、Answer Relevance、Context Relevance)检测和定位幻觉。

关键创新:LLM-FACETS的关键创新在于其易用性、隐私保护和可扩展性。它通过浏览器界面和插件架构降低了使用门槛,通过明确的数据流控制保护了用户隐私,并通过插件架构实现了高度的可扩展性。此外,该框架还集成了多种先进的评估指标和透明性机制,可以更全面地评估LLM的性能。

关键设计:LLM-FACETS的关键设计包括:1) 插件架构:采用模块化的设计,允许用户方便地添加新的评估指标和数据集。2) 数据流控制:明确定义数据的输入、处理和输出流程,确保敏感数据不会被传输到外部服务。3) 透明性机制:提供token级别的log-probability可视化,用于评估认知不确定性;采用多judge共识机制,减轻judge偏差;使用RAG Triad指标(Faithfulness、Answer Relevance、Context Relevance)检测和定位幻觉。4) 用户角色划分:针对不同类型的用户(技术专家、领域专家、合规人员)提供定制化的界面和功能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该论文通过交叉验证18个指标实现来验证LLM-FACETS框架的有效性。实验结果表明,该框架能够准确地评估LLM的性能,并提供有价值的反馈。此外,该框架的隐私保护机制也得到了验证,确保敏感数据不会被意外泄露。具体性能数据未知。

🎯 应用场景

LLM-FACETS可应用于各种需要评估LLM性能的场景,例如:AI产品开发、模型安全审计、合规性检查等。它可以帮助企业和组织更好地了解LLM的性能,识别潜在的风险,并确保LLM的部署符合相关的法律法规。该框架的开源特性也使其可以被广泛应用于学术研究和教育领域,促进LLM评估技术的发展。

📄 摘要(原文)

Assessing whether Large Language Models outputs are factually grounded, epistemically calibrated, and methodologically reproducible is a prerequisite for responsible AI deployment. Yet auditing LLMs remains inaccessible to non-technical practitioners: existing tools require programming expertise and non-trivial environment setup, and cloud-hosted platforms transmit evaluation data to external services, creating barriers for domain experts and compliance officers legally responsible for AI oversight. We introduce LLM-FACETS (LLM FActuality Cross-EvaluaTion System): an open-source framework with a browser-accessible interface and a plugin architecture, structured around three practitioner profiles (technical experts, domain experts, compliance officers) that mirror the stakeholder categories identified in the EU AI Act and the NIST AI Risk Management Framework. The architecture makes data flows explicit: deterministic metrics (BLEU, ROUGE, BERTScore) run entirely within the self-hosted server with no outbound transmission; LLM-judge metrics contact external APIs explicitly, with users retaining full credential control. The framework operationalizes transparency through three mechanisms: token-level log-probability visualization for epistemic uncertainty, multi-judge consensus to mitigate judge bias, and RAG Triad metrics (Faithfulness, Answer Relevance, Context Relevance) to detect and localize hallucinations. A plugin architecture allows any new metric or dataset to be integrated without modifying the evaluation pipeline. The open-source implementation enables cross-checking across multiple metrics targeting the same property, ensuring reproducibility and decoupling AI accountability from the teams building the systems assessed. We verify the framework through cross-validation of 18 metric implementations against canonical reference libraries.