SAGE: Scalable Automated Robustness Augmentation for LLM Knowledge Evaluation

📄 arXiv: 2605.12022v1 📥 PDF

作者: Xiaoyuan Li, Yuzhe Wang, Moxin Li, Keqin Bao, Rui Men, Yichang Zhang, Dayiheng Liu, Wenjie Wang, Fuli Feng

分类: cs.CL

发布日期: 2026-05-12

备注: Under Review


💡 一句话要点

SAGE:一种可扩展的自动化鲁棒性增强框架,用于评估LLM知识

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 知识评估 鲁棒性增强 自动化基准生成 强化学习

📋 核心要点

  1. 现有LLM知识评估基准缺乏鲁棒性,模型在相似但形式不同的问题上表现不稳定,需要更有效的鲁棒性增强方法。
  2. SAGE框架利用微调的小型模型,通过生成和验证问题变体,自动扩展知识评估基准的鲁棒性,降低了人工成本。
  3. 实验表明,SAGE生成的基准质量与人工标注的基准相当,且微调后的模型在其他基准上具有良好的泛化能力。

📝 摘要(中文)

大型语言模型(LLMs)在标准知识评估基准上表现出色,但最近的研究表明,它们在面对以不同形式测试相同知识的问题变体时,知识能力仍然脆弱。因此,对现有知识评估基准进行鲁棒性增强是必要的,但由于变体生成效率低和变体验证不可靠,目前LLM辅助的生成-验证流程成本高昂且难以扩展。我们提出了SAGE(Scalable Automated Generation of Robustness BEnchmarks),这是一个使用微调的小型模型对知识评估基准进行可扩展鲁棒性增强的框架。SAGE包括VariantQual(一个基于规则的验证器,在人工标注的种子数据上训练)和VariantGen(一个变体生成器,首先进行监督微调,然后使用VariantQual作为奖励模型进行强化学习优化)。在HellaSwag上的实验表明,SAGE构建了一个大规模的鲁棒性增强基准,其质量与人工标注的HellaSwag-Pro相当,但成本大大降低,同时微调的模型进一步泛化到MMLU,而无需针对特定基准进行微调。

🔬 方法详解

问题定义:论文旨在解决LLM知识评估基准鲁棒性不足的问题。现有方法依赖人工或大型LLM辅助生成和验证问题变体,成本高昂且效率低下,难以大规模扩展。这些方法生成的变体质量参差不齐,验证过程也存在不确定性,影响了最终基准的质量。

核心思路:论文的核心思路是利用微调的小型模型,构建一个可扩展的自动化流程,高效生成高质量的问题变体,并进行可靠的验证。通过监督学习和强化学习相结合的方式,优化变体生成器,使其能够生成更具挑战性和鲁棒性的问题。

技术框架:SAGE框架包含两个主要模块:VariantGen(变体生成器)和VariantQual(变体验证器)。首先,使用监督学习对VariantGen进行微调,使其能够生成初步的问题变体。然后,使用VariantQual作为奖励模型,通过强化学习进一步优化VariantGen,使其能够生成更符合要求的变体。VariantQual是一个基于规则的验证器,通过在人工标注的种子数据上训练,学习判断变体质量的标准。

关键创新:SAGE的关键创新在于使用微调的小型模型替代大型LLM进行变体生成和验证,显著降低了计算成本和人工干预。同时,通过监督学习和强化学习相结合的方式,有效提高了变体生成的质量和效率。VariantQual的设计也避免了完全依赖LLM进行验证可能带来的偏差。

关键设计:VariantGen的初始化采用监督微调,使用已有的数据集进行训练,使其具备初步的变体生成能力。强化学习阶段,VariantQual提供的奖励信号引导VariantGen生成更符合鲁棒性要求的变体。VariantQual的规则设计基于人工标注的种子数据,确保了验证的准确性和一致性。具体的损失函数和网络结构细节在论文中进行了详细描述(此处未知具体细节,请参考原文)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SAGE能够以远低于人工标注的成本,生成与人工标注的HellaSwag-Pro质量相当的鲁棒性增强基准。微调后的模型在HellaSwag上取得了显著的性能提升,并且在MMLU基准上表现出良好的泛化能力,无需针对特定基准进行微调。这些结果验证了SAGE框架的有效性和可扩展性。

🎯 应用场景

SAGE框架可应用于各种LLM知识评估基准的鲁棒性增强,例如常识推理、阅读理解和知识问答等。该方法能够帮助研究人员构建更具挑战性和代表性的评估基准,从而更准确地评估LLM的知识能力和鲁棒性。此外,SAGE还可以用于生成对抗样本,提高LLM的防御能力。

📄 摘要(原文)

Large Language Models (LLMs) achieve strong performance on standard knowledge evaluation benchmarks, yet recent work shows that their knowledge capabilities remain brittle under question variants that test the same knowledge in different forms. Robustness augmentation of existing knowledge evaluation benchmarks is therefore necessary, but current LLM-assisted generate-then-verify pipelines are costly and difficult to scale due to low-yield variant generation and unreliable variant verification. We propose SAGE (Scalable Automated Generation of Robustness BEnchmarks), a framework for scalable robustness augmentation of knowledge evaluation benchmarks using fine-tuned smaller models. SAGE consists of VariantQual, a rubric-based verifier trained on human-labeled seed data, and VariantGen, a variant generator initialized with supervised fine-tuning and further optimized with reinforcement learning using VariantQual as the reward model. Experiments on HellaSwag show that SAGE constructs a large-scale robustness-augmented benchmark with quality comparable to the human-annotated HellaSwag-Pro at substantially lower cost, while the fine-tuned models further generalize to MMLU without benchmark-specific fine-tuning.