SynQuE: Estimating Synthetic Dataset Quality Without Annotations
作者: Arthur Chen, Victor Zhong
分类: cs.LG
发布日期: 2026-04-07
💡 一句话要点
SynQuE:无需标注评估合成数据集质量,提升真实任务性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 合成数据质量评估 数据稀缺 代理指标 大型语言模型 SynQuE
📋 核心要点
- 现有方法难以在数据稀缺场景下评估合成数据集质量,阻碍了其在真实任务中的有效应用。
- SynQuE通过代理指标,仅利用少量未标注真实数据,即可对合成数据集的质量进行排序,指导数据选择。
- 实验表明,SynQuE代理与真实任务性能相关,尤其LENS在复杂任务上表现突出,显著提升了任务准确率。
📝 摘要(中文)
本文提出了合成数据集质量估计(SynQuE)问题,旨在仅使用有限的未标注真实数据,根据合成数据集在真实世界任务中的预期性能对其进行排序。这解决了因数据收集成本或隐私限制导致数据稀缺的关键且开放的挑战。我们通过引入和评估代理指标,为该问题建立了第一个全面的基准,这些代理指标选择合成数据进行训练,以最大限度地提高真实数据的任务性能。我们通过将基于分布和多样性的距离度量通过嵌入模型适配到我们的场景,从而引入了SynQuE的第一个代理指标。为了解决这些指标在复杂规划任务上的缺点,我们提出了LENS,一种利用大型语言模型推理的新型代理。结果表明,SynQuE代理与各种任务(包括情感分析、Text2SQL、Web导航和图像分类)的真实任务性能相关,其中LENS在复杂任务上始终优于其他代理,因为它能够捕获细微的特征。例如,在text-to-SQL解析中,与不加选择地选择数据相比,通过SynQuE代理选择的前3个合成数据集进行训练,平均可以将准确率从30.4%提高到38.4%(+8.1%)。这项工作将SynQuE确立为在真实数据稀缺情况下进行合成数据选择的实用框架,并推动了未来基于基础模型的数据表征和细粒度数据选择的研究。
🔬 方法详解
问题定义:论文旨在解决合成数据集质量评估问题,即在缺乏大量标注真实数据的情况下,如何有效地评估和选择高质量的合成数据集,以提升模型在真实任务上的性能。现有方法要么依赖大量标注数据,要么无法准确捕捉合成数据与真实数据之间的细微差异,导致合成数据利用率低,甚至损害模型性能。
核心思路:论文的核心思路是利用少量未标注的真实数据,设计代理指标来评估合成数据集的质量。这些代理指标能够衡量合成数据与真实数据之间的分布相似性和多样性,从而预测合成数据在真实任务上的表现。通过对合成数据集进行排序,可以选择最适合真实任务的合成数据进行训练,提高模型泛化能力。
技术框架:SynQuE框架主要包含以下几个阶段:1) 数据嵌入:使用预训练的嵌入模型(如BERT、CLIP)将合成数据和真实数据映射到高维向量空间。2) 代理指标计算:基于嵌入向量,计算合成数据和真实数据之间的距离度量,包括基于分布的距离(如MMD)和基于多样性的距离。此外,还提出了LENS,利用大型语言模型进行推理,捕捉更细粒度的特征。3) 数据集排序:根据代理指标的结果,对合成数据集进行排序,选择排名靠前的合成数据集用于训练。4) 任务评估:在真实任务上评估使用不同合成数据集训练的模型性能,验证代理指标的有效性。
关键创新:论文的关键创新在于提出了SynQuE问题,并设计了首个针对该问题的代理指标,特别是LENS。LENS利用大型语言模型的推理能力,能够捕捉合成数据与真实数据之间更细微的语义差异,从而更准确地评估合成数据集的质量。与传统的基于分布和多样性的距离度量相比,LENS在复杂任务上表现出更强的优势。
关键设计:LENS的关键设计在于利用大型语言模型对合成数据和真实数据进行语义分析,提取关键特征。具体来说,LENS首先将数据输入到大型语言模型中,获取其隐藏层表示。然后,LENS使用这些表示来计算合成数据和真实数据之间的相似度。此外,LENS还引入了注意力机制,以关注对任务更重要的特征。LENS的具体实现细节和参数设置需要根据具体的任务和数据集进行调整。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SynQuE代理与真实任务性能具有显著相关性。在Text2SQL任务中,使用SynQuE代理选择的前3个合成数据集进行训练,可以将准确率从30.4%提高到38.4%(+8.1%)。LENS在复杂任务上始终优于其他代理,证明了其有效性。这些结果验证了SynQuE框架在合成数据选择方面的实用价值。
🎯 应用场景
SynQuE框架可广泛应用于数据稀缺场景,例如医疗、金融等领域,在这些领域,数据收集成本高昂或涉及隐私问题。通过SynQuE,可以有效地利用合成数据来增强模型训练,提高模型在真实任务上的性能。未来,SynQuE有望成为合成数据管理和利用的重要工具,推动人工智能技术在各个领域的应用。
📄 摘要(原文)
We introduce and formalize the Synthetic Dataset Quality Estimation (SynQuE) problem: ranking synthetic datasets by their expected real-world task performance using only limited unannotated real data. This addresses a critical and open challenge where data is scarce due to collection costs or privacy constraints. We establish the first comprehensive benchmarks for this problem by introducing and evaluating proxy metrics that choose synthetic data for training to maximize task performance on real data. We introduce the first proxy metrics for SynQuE by adapting distribution and diversity-based distance measures to our context via embedding models. To address the shortcomings of these metrics on complex planning tasks, we propose LENS, a novel proxy that leverages large language model reasoning. Our results show that SynQuE proxies correlate with real task performance across diverse tasks, including sentiment analysis, Text2SQL, web navigation, and image classification, with LENS consistently outperforming others on complex tasks by capturing nuanced characteristics. For instance, on text-to-SQL parsing, training on the top-3 synthetic datasets selected via SynQuE proxies can raise accuracy from 30.4% to 38.4 (+8.1)% on average compared to selecting data indiscriminately. This work establishes SynQuE as a practical framework for synthetic data selection under real-data scarcity and motivates future research on foundation model-based data characterization and fine-grained data selection.