A Unified Data Representation Learning for Non-parametric Two-sample Testing
作者: Xunye Tian, Liuhua Peng, Zhijian Zhou, Mingming Gong, Arthur Gretton, Feng Liu
分类: cs.LG, stat.ML
发布日期: 2024-11-30 (更新: 2025-05-08)
备注: 19 pages, 3 figures. To appear in Proceedings of the Fourty-First Conference on Uncertainty in Artificial Intelligence (UAI 2025)
💡 一句话要点
提出RL-TST框架,用于非参数双样本检验中的统一数据表示学习
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 双样本检验 表示学习 自监督学习 非参数检验 假设检验
📋 核心要点
- 传统双样本检验方法依赖于在训练集上学习数据表示,忽略了测试集中的信息,限制了表示学习的有效性。
- RL-TST框架通过在整个数据集上进行自监督学习,提取内在表示(IR),再通过判别模型学习判别表示(DR),从而融合数据结构信息和判别能力。
- 实验结果表明,RL-TST在双样本检验任务中优于现有方法,验证了其利用测试集信息和学习判别表示的有效性。
📝 摘要(中文)
在非参数双样本检验中,学习有效的数据表示至关重要。常见方法通常先将数据分为训练集和测试集,然后在训练集上学习数据表示。然而,最新的理论研究表明,只要在学习过程中不使用样本索引,就可以使用整个数据集来学习数据表示,同时确保控制I类错误。这一事实促使我们利用测试集(但不使用样本索引)来促进测试中的数据表示学习。为此,我们提出了一个表示学习双样本检验(RL-TST)框架。RL-TST首先在整个数据集上执行纯粹的自监督表示学习,以捕获反映底层数据流形的内在表示(IR)。然后,在这些IR上训练判别模型以学习判别表示(DR),使框架能够利用来自IR的丰富结构信息和DR的判别能力。大量实验表明,RL-TST通过同时使用测试集中的数据流形信息和通过训练集找到DR来增强测试能力,从而优于代表性方法。
🔬 方法详解
问题定义:论文旨在解决非参数双样本检验中数据表示学习的问题。现有方法通常将数据划分为训练集和测试集,仅在训练集上学习数据表示,忽略了测试集中的信息,导致学习到的表示可能不是最优的,从而影响检验的性能。此外,如何有效地利用整个数据集(包括测试集)的信息,同时保证I类错误的控制,也是一个挑战。
核心思路:论文的核心思路是利用整个数据集(包括测试集)进行数据表示学习,同时避免使用样本索引以保证I类错误的控制。具体而言,首先通过自监督学习提取数据的内在表示(IR),然后在此基础上学习判别表示(DR),从而融合数据的结构信息和判别能力。
技术框架:RL-TST框架主要包含两个阶段:1) 内在表示学习(IR Learning):在整个数据集上进行自监督学习,例如使用对比学习或自编码器,以捕获数据的底层结构和流形信息。2) 判别表示学习(DR Learning):在学习到的IR上训练一个判别模型,例如逻辑回归或神经网络,以学习区分两个样本集的判别表示。最终,使用学习到的DR进行双样本检验。
关键创新:该论文的关键创新在于提出了一个统一的框架,能够同时利用整个数据集进行表示学习,并融合内在表示和判别表示。与传统方法相比,RL-TST能够更有效地利用数据信息,学习到更具判别力的表示,从而提高双样本检验的性能。
关键设计:在内在表示学习阶段,可以使用各种自监督学习方法,例如对比学习(SimCLR, MoCo)或自编码器(VAE, DAE)。判别表示学习阶段,可以使用各种分类器,例如逻辑回归、支持向量机或神经网络。损失函数可以根据具体的自监督学习方法和分类器进行选择。关键在于保证自监督学习过程中不使用样本索引,以避免I类错误。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RL-TST在多个数据集上优于现有的双样本检验方法,例如MMD、能量距离等。具体而言,RL-TST在某些数据集上能够显著提高检验的power,同时保持I类错误率在可控范围内。这表明RL-TST能够有效地利用整个数据集的信息,学习到更具判别力的表示。
🎯 应用场景
该研究成果可广泛应用于需要进行双样本检验的领域,例如生物信息学(比较不同疾病的基因表达谱)、医学诊断(比较健康人群和患者的生理指标)、金融风控(比较正常交易和欺诈交易的特征分布)等。通过学习更有效的数据表示,可以提高双样本检验的准确性和可靠性,从而为相关领域的决策提供更可靠的依据。
📄 摘要(原文)
Learning effective data representations has been crucial in non-parametric two-sample testing. Common approaches will first split data into training and test sets and then learn data representations purely on the training set. However, recent theoretical studies have shown that, as long as the sample indexes are not used during the learning process, the whole data can be used to learn data representations, meanwhile ensuring control of Type-I errors. The above fact motivates us to use the test set (but without sample indexes) to facilitate the data representation learning in the testing. To this end, we propose a representation-learning two-sample testing (RL-TST) framework. RL-TST first performs purely self-supervised representation learning on the entire dataset to capture inherent representations (IRs) that reflect the underlying data manifold. A discriminative model is then trained on these IRs to learn discriminative representations (DRs), enabling the framework to leverage both the rich structural information from IRs and the discriminative power of DRs. Extensive experiments demonstrate that RL-TST outperforms representative approaches by simultaneously using data manifold information in the test set and enhancing test power via finding the DRs with the training set.