TruthTorchLM: A Comprehensive Library for Predicting Truthfulness in LLM Outputs

作者: Duygu Nur Yaldiz, Yavuz Faruk Bakman, Sungmin Kang, Alperen Öziş, Hayrettin Eren Yildiz, Mitash Ashish Shah, Zhiqi Huang, Anoop Kumar, Alfy Samuel, Daben Liu, Sai Praneeth Karimireddy, Salman Avestimehr

分类: cs.CL

发布日期: 2025-07-10

🔗 代码/项目: GITHUB

💡 一句话要点

TruthTorchLM：一个全面的LLM输出真实性预测开源库

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 真实性预测 开源库 自然语言处理 评估框架

📋 核心要点

大型语言模型生成内容时存在不真实性问题，现有方法如Guardrails和LM-Polygraph存在局限性。
TruthTorchLM提供了一个包含30多种真实性预测方法的开源库，支持多种模型和评估方式。
该库通过实验验证了多种真实性预测方法在不同数据集上的性能，并提供了灵活的扩展框架。

📝 摘要（中文）

生成式大型语言模型(LLMs)不可避免地会产生不真实的响应。准确预测这些输出的真实性至关重要，尤其是在高风险环境中。为了加速该领域的研究并使真实性预测方法更易于访问，我们推出了TruthTorchLM，这是一个开源的、全面的Python库，包含30多种真实性预测方法，我们称之为Truth Methods。与仅关注文档依据验证的现有工具包（如Guardrails）或仅限于基于不确定性的方法（如LM-Polygraph）不同，TruthTorchLM提供了广泛且可扩展的技术集合。这些方法在计算成本、访问级别（例如，黑盒与白盒）、依据文档要求和监督类型（自监督或监督）方面存在不同的权衡。TruthTorchLM与HuggingFace和LiteLLM无缝兼容，从而支持本地托管和基于API的模型。它还为生成、评估、校准和长格式真实性预测提供统一的接口，以及一个灵活的框架，用于使用新方法扩展库。我们对TriviaQA、GSM8K和FactScore-Bio三个数据集上具有代表性的真实性方法进行了评估。代码可在https://github.com/Ybakman/TruthTorchLM 获取。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLM）生成内容时，如何准确预测其真实性的问题。现有方法，如Guardrails主要关注文档依据验证，而LM-Polygraph则局限于基于不确定性的方法，缺乏一个全面、灵活且易于扩展的工具来评估LLM输出的真实性。这些局限性阻碍了该领域的研究进展，尤其是在需要高可信度的应用场景中。

核心思路：TruthTorchLM的核心思路是构建一个统一的平台，整合多种不同的真实性预测方法（Truth Methods），并提供一个易于使用的接口，方便研究人员和开发者评估和比较这些方法。通过支持不同的访问级别（黑盒/白盒）、监督类型（自监督/监督）和模型类型（HuggingFace/LiteLLM），TruthTorchLM旨在覆盖更广泛的应用场景，并促进新方法的开发。

技术框架：TruthTorchLM的技术框架主要包含以下几个模块：1) Truth Methods模块：包含30多种真实性预测方法，涵盖不同的技术路线和实现方式。2) 模型集成模块：支持HuggingFace和LiteLLM，可以方便地集成各种预训练语言模型。3) 评估模块：提供统一的接口，用于生成、评估、校准和长格式真实性预测。4) 扩展模块：提供灵活的框架，方便用户添加新的真实性预测方法。整体流程是从LLM生成文本，然后使用Truth Methods模块中的方法预测文本的真实性，最后使用评估模块评估预测结果。

关键创新：TruthTorchLM的关键创新在于其全面性和易用性。它不仅整合了大量的真实性预测方法，而且提供了一个统一的接口，方便用户使用和比较这些方法。此外，TruthTorchLM还支持不同的访问级别、监督类型和模型类型，使其能够适应更广泛的应用场景。与现有工具包相比，TruthTorchLM更加灵活和可扩展。

关键设计：TruthTorchLM的关键设计包括：1) Truth Methods的选取：选择了涵盖不同技术路线和实现方式的30多种方法，以提供全面的真实性预测能力。2) 统一接口的设计：设计了统一的接口，方便用户使用和比较不同的Truth Methods。3) 模型集成的实现：通过与HuggingFace和LiteLLM的集成，支持各种预训练语言模型。4) 评估指标的选择：选择了合适的评估指标，如准确率、召回率和F1值，以评估Truth Methods的性能。

🖼️ 关键图片

📊 实验亮点

论文通过在TriviaQA、GSM8K和FactScore-Bio三个数据集上评估代表性的真实性预测方法，展示了TruthTorchLM的有效性。具体性能数据未在摘要中明确给出，但强调了该库为研究人员提供了一个评估和比较不同方法的平台。该库的开源特性也促进了社区的合作和创新。

🎯 应用场景

TruthTorchLM可应用于各种需要评估LLM输出真实性的场景，例如：新闻内容审核、医疗诊断辅助、金融风险评估、教育辅导等。通过使用TruthTorchLM，可以提高LLM应用的可靠性和安全性，减少虚假信息带来的负面影响。未来，该库可以进一步扩展到其他模态的数据，例如图像和视频，以实现更全面的真实性评估。

📄 摘要（原文）

Generative Large Language Models (LLMs)inevitably produce untruthful responses. Accurately predicting the truthfulness of these outputs is critical, especially in high-stakes settings. To accelerate research in this domain and make truthfulness prediction methods more accessible, we introduce TruthTorchLM an open-source, comprehensive Python library featuring over 30 truthfulness prediction methods, which we refer to as Truth Methods. Unlike existing toolkits such as Guardrails, which focus solely on document-grounded verification, or LM-Polygraph, which is limited to uncertainty-based methods, TruthTorchLM offers a broad and extensible collection of techniques. These methods span diverse tradeoffs in computational cost, access level (e.g., black-box vs white-box), grounding document requirements, and supervision type (self-supervised or supervised). TruthTorchLM is seamlessly compatible with both HuggingFace and LiteLLM, enabling support for locally hosted and API-based models. It also provides a unified interface for generation, evaluation, calibration, and long-form truthfulness prediction, along with a flexible framework for extending the library with new methods. We conduct an evaluation of representative truth methods on three datasets, TriviaQA, GSM8K, and FactScore-Bio. The code is available at https://github.com/Ybakman/TruthTorchLM

TruthTorchLM: A Comprehensive Library for Predicting Truthfulness in LLM Outputs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理