Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution
作者: Jizhao Zhu, Akang Shi, Zixuan Li, Long Bai, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng
分类: cs.CL, cs.AI
发布日期: 2025-03-05
💡 一句话要点
提出RUIE-Bench以解决通用信息提取的鲁棒性问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 通用信息提取 鲁棒性 数据增强 大型语言模型 对抗学习
📋 核心要点
- 现有的鲁棒基准数据集在扰动生成上存在局限,无法全面评估通用信息提取模型的鲁棒性。
- 本文提出RUIE-Bench数据集,利用大型语言模型生成多样化的扰动,以提升通用信息提取的鲁棒性。
- 实验表明,仅使用15%的数据进行训练,三个信息提取任务的平均性能提升达7.5%。
📝 摘要(中文)
本文旨在通过引入新的基准数据集、全面评估和可行解决方案,增强通用信息提取(UIE)的鲁棒性。现有的鲁棒基准数据集存在两个主要局限性:一是仅为单一信息提取任务生成有限的扰动,无法有效评估UIE模型的鲁棒性;二是依赖小模型或手工规则生成扰动,导致不自然的对抗样本。考虑到大型语言模型(LLMs)的强大生成能力,我们提出了一个新的鲁棒UIE基准数据集RUIE-Bench,利用LLMs生成不同IE任务中更具多样性和现实性的扰动。基于该数据集,我们全面评估现有UIE模型,发现无论是基于LLM的模型还是其他模型均存在显著的性能下降。为提高鲁棒性并降低训练成本,我们提出了一种数据增强解决方案,基于模型的推理损失动态选择困难样本进行迭代训练。实验结果表明,仅使用15%的数据训练,三个IE任务的平均相对性能提升达7.5%。
🔬 方法详解
问题定义:本文解决通用信息提取(UIE)模型在面对扰动时的鲁棒性问题。现有方法在扰动生成上存在局限,无法有效评估模型的真实性能。
核心思路:通过引入RUIE-Bench数据集,利用大型语言模型生成多样化且自然的扰动,从而全面评估UIE模型的鲁棒性。并提出动态选择困难样本的训练策略,以提升模型的鲁棒性和训练效率。
技术框架:整体架构包括数据集构建、模型评估和动态数据增强三个主要模块。首先,利用LLMs生成多样化扰动;其次,对现有UIE模型进行评估;最后,实施基于推理损失的动态样本选择进行训练。
关键创新:最重要的创新点在于引入了RUIE-Bench数据集,利用LLMs生成更具多样性和现实性的扰动,克服了传统方法的局限性。
关键设计:在数据增强过程中,模型根据推理损失动态选择困难样本进行迭代训练,确保模型在训练过程中不断提升鲁棒性。
🖼️ 关键图片
📊 实验亮点
实验结果显示,使用仅15%的数据进行训练,三个信息提取任务的平均相对性能提升达7.5%。这一结果表明,动态选择困难样本的训练策略显著提高了模型的鲁棒性,具有重要的应用前景。
🎯 应用场景
该研究的潜在应用领域包括自然语言处理、信息提取和对抗学习等。通过提升通用信息提取模型的鲁棒性,能够在实际应用中更好地处理噪声和扰动,提高信息提取的准确性和可靠性,具有重要的实际价值和未来影响。
📄 摘要(原文)
In this paper, we aim to enhance the robustness of Universal Information Extraction (UIE) by introducing a new benchmark dataset, a comprehensive evaluation, and a feasible solution. Existing robust benchmark datasets have two key limitations: 1) They generate only a limited range of perturbations for a single Information Extraction (IE) task, which fails to evaluate the robustness of UIE models effectively; 2) They rely on small models or handcrafted rules to generate perturbations, often resulting in unnatural adversarial examples. Considering the powerful generation capabilities of Large Language Models (LLMs), we introduce a new benchmark dataset for Robust UIE, called RUIE-Bench, which utilizes LLMs to generate more diverse and realistic perturbations across different IE tasks. Based on this dataset, we comprehensively evaluate existing UIE models and reveal that both LLM-based models and other models suffer from significant performance drops. To improve robustness and reduce training costs, we propose a data-augmentation solution that dynamically selects hard samples for iterative training based on the model's inference loss. Experimental results show that training with only \textbf{15\%} of the data leads to an average \textbf{7.5\%} relative performance improvement across three IE tasks.