KatotohananQA: Evaluating Truthfulness of Large Language Models in Filipino
作者: Lorenzo Alfred Nery, Ronald Dawson Catignas, Thomas James Tiam-Lee
分类: cs.CL
发布日期: 2025-09-07
备注: 14 pages, 1 figure, 9 tables, 1 listing. To appear in Proceedings of NLPIR 2025
💡 一句话要点
KatotohananQA:构建菲律宾语TruthfulQA基准,评估大语言模型真实性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 真实性评估 低资源语言 菲律宾语 多语言鲁棒性
📋 核心要点
- 现有TruthfulQA等真实性评测基准主要集中在英语,缺乏对低资源语言大语言模型的评估。
- 论文提出KatotohananQA,将TruthfulQA翻译为菲律宾语,用于评估LLM在菲律宾语环境下的真实性。
- 实验表明,LLM在菲律宾语环境下的真实性显著低于英语,部分OpenAI模型表现出较好的多语言鲁棒性。
📝 摘要(中文)
大型语言模型(LLMs)在各种任务中表现出色,但其产生幻觉的倾向限制了可靠的应用。诸如TruthfulQA之类的基准已被开发用于衡量真实性,但它们主要以英语提供,这使得评估低资源语言的LLM存在差距。为了解决这个问题,我们提出了KatotohananQA,即TruthfulQA基准的菲律宾语翻译版本。使用二元选择框架评估了七个免费的专有模型。研究结果表明,英语和菲律宾语的真实性之间存在显着性能差距,而较新的OpenAI模型(GPT-5和GPT-5 mini)表现出强大的多语言鲁棒性。结果还揭示了问题特征的差异,表明某些问题类型、类别和主题对多语言迁移的鲁棒性较差,这突显了需要更广泛的多语言评估,以确保LLM使用的公平性和可靠性。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在低资源语言(特别是菲律宾语)环境中真实性评估不足的问题。现有TruthfulQA基准主要针对英语,无法有效评估LLM在其他语言环境下的表现。这导致我们无法了解LLM在不同语言文化背景下的可靠性和安全性,阻碍了其在多语言环境中的广泛应用。
核心思路:论文的核心思路是将现有的TruthfulQA基准翻译成菲律宾语,创建一个名为KatotohananQA的菲律宾语版本。通过在KatotohananQA上评估LLM,可以直接衡量模型在菲律宾语环境下的真实性。这种方法利用了已有的高质量基准,并将其扩展到低资源语言,从而降低了构建新基准的成本和复杂性。
技术框架:该研究的技术框架主要包括以下几个步骤:1) TruthfulQA基准的翻译:将TruthfulQA数据集中的问题和答案翻译成菲律宾语,创建KatotohananQA数据集。2) 模型选择:选择七个免费的专有LLM进行评估。3) 评估框架:采用二元选择框架,让模型从两个选项中选择一个最真实的答案。4) 性能评估:比较模型在英语TruthfulQA和菲律宾语KatotohananQA上的表现,分析不同模型和不同问题类型之间的差异。
关键创新:该论文的关键创新在于构建了首个菲律宾语的TruthfulQA基准(KatotohananQA),为评估LLM在低资源语言环境下的真实性提供了新的工具。此外,该研究还揭示了LLM在不同语言环境下的性能差异,强调了多语言评估的重要性。
关键设计:论文的关键设计包括:1) 翻译策略:采用高质量的翻译方法,确保KatotohananQA数据集的准确性和可靠性(具体翻译方法未知)。2) 二元选择框架:使用二元选择框架简化评估过程,并提高评估结果的可比性。3) 模型选择:选择具有代表性的LLM进行评估,以便更好地了解LLM在菲律宾语环境下的表现。
📊 实验亮点
实验结果表明,LLM在菲律宾语KatotohananQA上的表现明显低于英语TruthfulQA,突显了多语言评估的必要性。尽管存在差距,但较新的OpenAI模型(GPT-5和GPT-5 mini,具体性能数据未知)表现出较强的多语言鲁棒性。研究还发现,不同类型的问题对多语言迁移的鲁棒性存在差异,表明需要针对不同问题类型进行优化。
🎯 应用场景
该研究成果可应用于评估和改进LLM在菲律宾语及其他低资源语言环境下的真实性和可靠性。KatotohananQA可作为LLM开发和部署的评估工具,帮助开发者识别和解决模型在多语言环境下的问题。此外,该研究也为构建其他低资源语言的真实性评估基准提供了参考,促进了LLM在多语言环境下的公平和可靠应用。
📄 摘要(原文)
Large Language Models (LLMs) achieve remarkable performance across various tasks, but their tendency to produce hallucinations limits reliable adoption. Benchmarks such as TruthfulQA have been developed to measure truthfulness, yet they are primarily available in English, leaving a gap in evaluating LLMs in low-resource languages. To address this, we present KatotohananQA, a Filipino translation of the TruthfulQA benchmark. Seven free-tier proprietary models were assessed using a binary-choice framework. Findings show a significant performance gap between English and Filipino truthfulness, with newer OpenAI models (GPT-5 and GPT-5 mini) demonstrating strong multilingual robustness. Results also reveal disparities across question characteristics, suggesting that some question types, categories, and topics are less robust to multilingual transfer which highlight the need for broader multilingual evaluation to ensure fairness and reliability in LLM usage.