Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution

作者: Jizhao Zhu, Akang Shi, Zixuan Li, Long Bai, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng

分类: cs.CL, cs.AI

发布日期: 2025-03-05

💡 一句话要点

提出RUIE-Bench以解决通用信息提取的鲁棒性问题

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 通用信息提取 鲁棒性 数据增强 大型语言模型 对抗学习

📋 核心要点

现有的鲁棒基准数据集在扰动生成上存在局限，无法全面评估通用信息提取模型的鲁棒性。
本文提出RUIE-Bench数据集，利用大型语言模型生成多样化的扰动，以提升通用信息提取的鲁棒性。
实验表明，仅使用15%的数据进行训练，三个信息提取任务的平均性能提升达7.5%。

📝 摘要（中文）

本文旨在通过引入新的基准数据集、全面评估和可行解决方案，增强通用信息提取（UIE）的鲁棒性。现有的鲁棒基准数据集存在两个主要局限性：一是仅为单一信息提取任务生成有限的扰动，无法有效评估UIE模型的鲁棒性；二是依赖小模型或手工规则生成扰动，导致不自然的对抗样本。考虑到大型语言模型（LLMs）的强大生成能力，我们提出了一个新的鲁棒UIE基准数据集RUIE-Bench，利用LLMs生成不同IE任务中更具多样性和现实性的扰动。基于该数据集，我们全面评估现有UIE模型，发现无论是基于LLM的模型还是其他模型均存在显著的性能下降。为提高鲁棒性并降低训练成本，我们提出了一种数据增强解决方案，基于模型的推理损失动态选择困难样本进行迭代训练。实验结果表明，仅使用15%的数据训练，三个IE任务的平均相对性能提升达7.5%。

🔬 方法详解

问题定义：本文解决通用信息提取（UIE）模型在面对扰动时的鲁棒性问题。现有方法在扰动生成上存在局限，无法有效评估模型的真实性能。

核心思路：通过引入RUIE-Bench数据集，利用大型语言模型生成多样化且自然的扰动，从而全面评估UIE模型的鲁棒性。并提出动态选择困难样本的训练策略，以提升模型的鲁棒性和训练效率。

技术框架：整体架构包括数据集构建、模型评估和动态数据增强三个主要模块。首先，利用LLMs生成多样化扰动；其次，对现有UIE模型进行评估；最后，实施基于推理损失的动态样本选择进行训练。

关键创新：最重要的创新点在于引入了RUIE-Bench数据集，利用LLMs生成更具多样性和现实性的扰动，克服了传统方法的局限性。

关键设计：在数据增强过程中，模型根据推理损失动态选择困难样本进行迭代训练，确保模型在训练过程中不断提升鲁棒性。

🖼️ 关键图片

📊 实验亮点

实验结果显示，使用仅15%的数据进行训练，三个信息提取任务的平均相对性能提升达7.5%。这一结果表明，动态选择困难样本的训练策略显著提高了模型的鲁棒性，具有重要的应用前景。

🎯 应用场景

该研究的潜在应用领域包括自然语言处理、信息提取和对抗学习等。通过提升通用信息提取模型的鲁棒性，能够在实际应用中更好地处理噪声和扰动，提高信息提取的准确性和可靠性，具有重要的实际价值和未来影响。

📄 摘要（原文）

In this paper, we aim to enhance the robustness of Universal Information Extraction (UIE) by introducing a new benchmark dataset, a comprehensive evaluation, and a feasible solution. Existing robust benchmark datasets have two key limitations: 1) They generate only a limited range of perturbations for a single Information Extraction (IE) task, which fails to evaluate the robustness of UIE models effectively; 2) They rely on small models or handcrafted rules to generate perturbations, often resulting in unnatural adversarial examples. Considering the powerful generation capabilities of Large Language Models (LLMs), we introduce a new benchmark dataset for Robust UIE, called RUIE-Bench, which utilizes LLMs to generate more diverse and realistic perturbations across different IE tasks. Based on this dataset, we comprehensively evaluate existing UIE models and reveal that both LLM-based models and other models suffer from significant performance drops. To improve robustness and reduce training costs, we propose a data-augmentation solution that dynamically selects hard samples for iterative training based on the model's inference loss. Experimental results show that training with only \textbf{15\%} of the data leads to an average \textbf{7.5\%} relative performance improvement across three IE tasks.

Towards Robust Universal Information Extraction: Benchmark, Evaluation, and Solution

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理