CT-Eval: Benchmarking Chinese Text-to-Table Performance in Large Language Models
作者: Haoxiang Shi, Jiaan Wang, Jiarong Xu, Cen Wang, Tetsuya Sakai
分类: cs.CL
发布日期: 2024-05-20
备注: 10 pages
💡 一句话要点
提出CT-Eval中文文本到表格数据集,用于评估和提升大语言模型在此任务上的性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到表格 中文数据集 大语言模型 数据幻觉 基准测试
📋 核心要点
- 现有文本到表格数据集主要面向英文,缺乏对中文等非英语语言的支持,限制了相关研究。
- CT-Eval数据集通过选择多学科中文百科数据,并采用LLM辅助和人工标注相结合的方式,保证了数据的多样性和低幻觉。
- 实验表明,零样本LLM性能与人类差距大,但微调后的开源LLM性能显著提升,甚至超越GPT-4。
📝 摘要(中文)
本文提出了一个中文文本到表格数据集CT-Eval,旨在评估大语言模型在此任务上的性能。现有的文本到表格数据集主要面向英文,限制了非英语语言的研究。CT-Eval数据集的构建受到了数据多样性和数据幻觉两个关键因素的启发。该数据集选取了流行的中文多学科在线百科作为数据来源,覆盖28个领域以保证数据多样性。为了最小化数据幻觉,首先训练一个大语言模型来判断和过滤掉带有幻觉的任务样本,然后雇佣人工标注员来清理验证集和测试集中的幻觉。最终,CT-Eval包含88.6K个任务样本。使用CT-Eval,评估了开源和闭源大语言模型的性能。结果表明,零样本大语言模型(包括GPT-4)与人类判断相比仍存在显著的性能差距。然而,经过微调后,开源大语言模型可以显著提高其文本到表格的能力,大幅超越GPT-4。CT-Eval不仅有助于研究人员评估和快速了解现有大语言模型的中文文本到表格能力,而且还可以作为一种有价值的资源来显著提高大语言模型的文本到表格性能。
🔬 方法详解
问题定义:论文旨在解决中文文本到表格生成任务中,缺乏高质量数据集的问题。现有数据集主要面向英文,无法有效评估和提升LLM在中文环境下的表现。此外,现有数据集可能存在数据幻觉问题,影响模型训练效果。
核心思路:核心思路是构建一个高质量、多样化、低幻觉的中文文本到表格数据集CT-Eval。通过选择中文百科数据源,覆盖多个领域,保证数据多样性。同时,采用LLM辅助和人工标注相结合的方式,有效降低数据幻觉。
技术框架:CT-Eval的构建流程主要包括以下几个阶段:1) 数据源选择:选择中文多学科在线百科作为数据来源。2) 数据筛选:使用LLM对数据进行初步筛选,过滤掉包含明显幻觉的样本。3) 人工标注:雇佣人工标注员对验证集和测试集进行清洗,进一步降低数据幻觉。4) 数据集划分:将数据集划分为训练集、验证集和测试集。
关键创新:CT-Eval的关键创新在于其构建流程,特别是LLM辅助和人工标注相结合的方式,能够有效降低数据幻觉,保证数据集的质量。此外,数据集覆盖多个领域,保证了数据的多样性,更贴近实际应用场景。
关键设计:在数据筛选阶段,使用了预训练的LLM进行辅助判断,具体使用的模型信息未知。人工标注阶段,标注人员需要仔细核对文本和表格内容,确保信息一致性,并纠正LLM筛选过程中可能出现的错误。具体的标注规范和质量控制方法未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,零样本LLM(包括GPT-4)在CT-Eval上的表现与人类判断存在显著差距。然而,经过微调后,开源LLM的文本到表格能力得到显著提升,甚至大幅超越GPT-4,表明CT-Eval对于提升LLM在中文文本到表格任务上的性能具有重要价值。
🎯 应用场景
CT-Eval数据集可广泛应用于中文信息抽取、知识图谱构建、智能问答等领域。通过在该数据集上训练和评估LLM,可以提升模型在中文文本理解和结构化信息生成方面的能力,从而更好地服务于中文用户。
📄 摘要(原文)
Text-to-Table aims to generate structured tables to convey the key information from unstructured documents. Existing text-to-table datasets are typically oriented English, limiting the research in non-English languages. Meanwhile, the emergence of large language models (LLMs) has shown great success as general task solvers in multi-lingual settings (e.g., ChatGPT), theoretically enabling text-to-table in other languages. In this paper, we propose a Chinese text-to-table dataset, CT-Eval, to benchmark LLMs on this task. Our preliminary analysis of English text-to-table datasets highlights two key factors for dataset construction: data diversity and data hallucination. Inspired by this, the CT-Eval dataset selects a popular Chinese multidisciplinary online encyclopedia as the source and covers 28 domains to ensure data diversity. To minimize data hallucination, we first train an LLM to judge and filter out the task samples with hallucination, then employ human annotators to clean the hallucinations in the validation and testing sets. After this process, CT-Eval contains 88.6K task samples. Using CT-Eval, we evaluate the performance of open-source and closed-source LLMs. Our results reveal that zero-shot LLMs (including GPT-4) still have a significant performance gap compared with human judgment. Furthermore, after fine-tuning, open-source LLMs can significantly improve their text-to-table ability, outperforming GPT-4 by a large margin. In short, CT-Eval not only helps researchers evaluate and quickly understand the Chinese text-to-table ability of existing LLMs but also serves as a valuable resource to significantly improve the text-to-table performance of LLMs.