Evaluating Large Language Model Capability in Vietnamese Fact-Checking Data Generation
作者: Long Truong To, Hung Tuan Le, Dat Van-Thanh Nguyen, Manh Trong Nguyen, Tri Thien Nguyen, Tin Van Huynh, Kiet Van Nguyen
分类: cs.CL
发布日期: 2024-11-08
💡 一句话要点
评估大型语言模型在越南语事实核查数据生成中的能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 事实核查 数据生成 越南语 低资源语言
📋 核心要点
- 越南语事实核查任务面临数据匮乏的挑战,现有方法难以有效解决数据不足的问题。
- 该研究探索利用大型语言模型(LLMs)自动生成越南语事实核查数据,并采用简单提示技术构建数据。
- 实验结果表明,通过微调技术可以显著提高生成数据的质量,但仍低于人工生成的数据水平。
📝 摘要(中文)
大型语言模型(LLMs)在阅读理解和推理能力方面逐渐提高,已被应用于各种复杂的语言任务,包括为各种目的自动生成语言数据。然而,在越南语等低资源语言中应用LLMs进行自动数据生成的研究仍不发达,并且缺乏全面的评估。本文探讨了使用LLMs为越南语事实核查任务自动生成数据,该任务面临着严重的数据限制。具体而言,我们专注于事实核查数据,其中声明是从多个证据句子合成的,以评估LLMs的信息合成能力。我们开发了一个使用LLMs上的简单提示技术的自动数据构建过程,并探索了几种方法来提高生成数据的质量。为了评估LLMs生成数据的质量,我们进行了人工质量评估和使用语言模型的性能评估。实验结果和人工评估表明,虽然通过微调技术显著提高了生成数据的质量,但LLMs仍然无法与人类产生的数据质量相媲美。
🔬 方法详解
问题定义:本文旨在解决越南语事实核查任务中数据匮乏的问题。现有方法难以有效利用低资源语言的特性,并且缺乏对LLM在信息合成方面的能力的评估。因此,如何利用LLM自动生成高质量的越南语事实核查数据成为一个关键挑战。
核心思路:论文的核心思路是利用大型语言模型(LLMs)的生成能力,通过简单的提示工程(Prompt Engineering)自动构建越南语事实核查数据集。通过设计合适的提示,引导LLM从多个证据句子中合成声明,从而模拟人工构建事实核查数据的过程。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 提示设计:设计用于引导LLM生成事实核查数据的提示。2) 数据生成:使用LLM和设计的提示生成候选事实核查数据。3) 数据质量提升:探索多种方法提升生成数据的质量,例如微调LLM。4) 数据评估:通过人工评估和模型性能评估,对生成数据的质量进行全面评估。
关键创新:该研究的关键创新在于探索了利用LLM自动生成越南语事实核查数据的可行性,并针对低资源语言的特点,设计了简单有效的提示工程方法。此外,该研究还对生成数据的质量进行了全面的评估,为后续研究提供了参考。
关键设计:研究中使用了简单的提示技术,例如提供多个证据句子,并要求LLM生成一个基于这些证据的声明。具体提示的格式和内容未知,但强调了简单性。此外,研究还探索了微调LLM以提高生成数据质量的方法,但具体的微调策略和参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,通过微调技术,LLM生成的数据质量得到了显著提升。然而,人工评估结果显示,LLM生成的数据质量仍然低于人工生成的数据。具体的性能数据和提升幅度未知,但研究强调了LLM在数据生成方面仍有提升空间。
🎯 应用场景
该研究成果可应用于低资源语言的事实核查任务,缓解数据匮乏的问题。自动生成的数据可以用于训练和评估事实核查模型,提高模型在低资源语言上的性能。此外,该方法还可以推广到其他自然语言处理任务中,例如文本摘要、机器翻译等,具有广泛的应用前景。
📄 摘要(原文)
Large Language Models (LLMs), with gradually improving reading comprehension and reasoning capabilities, are being applied to a range of complex language tasks, including the automatic generation of language data for various purposes. However, research on applying LLMs for automatic data generation in low-resource languages like Vietnamese is still underdeveloped and lacks comprehensive evaluation. In this paper, we explore the use of LLMs for automatic data generation for the Vietnamese fact-checking task, which faces significant data limitations. Specifically, we focus on fact-checking data where claims are synthesized from multiple evidence sentences to assess the information synthesis capabilities of LLMs. We develop an automatic data construction process using simple prompt techniques on LLMs and explore several methods to improve the quality of the generated data. To evaluate the quality of the data generated by LLMs, we conduct both manual quality assessments and performance evaluations using language models. Experimental results and manual evaluations illustrate that while the quality of the generated data has significantly improved through fine-tuning techniques, LLMs still cannot match the data quality produced by humans.