Generative Augmented Inference

📄 arXiv: 2604.14575v1 📥 PDF

作者: Cheng Lu, Mengxin Wang, Dennis J. Zhang, Heng Zhang

分类: cs.LG, cs.AI, stat.ME, stat.ML

发布日期: 2026-04-16


💡 一句话要点

提出生成式增强推理(GAI)框架,利用AI辅助数据提升人工标注模型的估计效率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式模型 增强推理 大型语言模型 辅助数据 运营管理

📋 核心要点

  1. 现有方法直接将AI预测作为人工标注的替代,当AI输出与真实标签关系复杂时,会导致估计效率低下或不可靠。
  2. GAI框架通过正交矩构造,将AI生成输出作为信息特征,用于估计人工标注结果的模型,实现一致估计和有效推理。
  3. 实验表明,GAI在联合分析、零售定价和健康保险选择等场景中,显著降低了估计误差和人工标注需求,并提高了置信区间的覆盖率。

📝 摘要(中文)

数据驱动的运营管理通常依赖于从昂贵的人工标注数据中估计的参数。大型语言模型(LLM)和其他AI系统的最新进展提供了廉价的辅助数据,但也带来了一个新的挑战:AI输出不是目标结果的直接观察,而是可能涉及与人工标注具有复杂和未知关系的高维表示。传统方法将AI预测作为真实标签的直接代理,当这种关系较弱或错误指定时,效率低下或不可靠。我们提出了生成式增强推理(GAI),这是一个通用框架,它将AI生成的输出作为信息丰富的特征,用于估计人工标注结果的模型。GAI使用正交矩构造,从而能够对LLM生成的输出与人工标签之间的灵活非参数关系进行一致估计和有效推理。我们建立了渐近正态性,并展示了一个“安全默认”属性:相对于仅使用人工数据的估计器,GAI在任意辅助信号下都能微弱地提高估计效率,并且只要辅助信息具有预测性,就能产生严格的收益。在各种设置中,GAI的经验表现优于基准。在具有弱辅助信号的联合分析中,GAI将估计误差降低了约50%,并将人工标注需求降低了75%以上。在零售定价中,所有方法都访问相同的辅助输入,GAI始终优于替代估计器,突出了其构造的价值,而不是信息差异。在健康保险选择中,它在保持决策准确性的同时,将标注需求降低了90%以上。在各种应用中,GAI改善了置信区间的覆盖率,而没有扩大宽度。总体而言,GAI提供了一种有原则且可扩展的方法来整合AI生成的信息。

🔬 方法详解

问题定义:论文旨在解决数据驱动运营管理中,利用大型语言模型等AI系统生成的辅助数据来提升人工标注模型估计效率的问题。现有方法通常将AI预测直接作为人工标注的替代,但当AI输出与真实标签之间的关系复杂且未知时,这种方法会变得效率低下甚至不可靠。因此,如何有效利用AI生成的辅助信息,同时保证估计的一致性和有效性,是本研究要解决的核心问题。

核心思路:GAI的核心思路是将AI生成的输出视为信息丰富的特征,而不是直接替代人工标注。通过构建一个正交矩条件,GAI能够将AI输出与人工标注之间的复杂关系纳入模型中,从而实现更准确的参数估计。这种方法允许AI辅助信息以灵活的非参数方式影响估计结果,避免了对AI输出与真实标签之间关系的强假设。

技术框架:GAI框架主要包含以下几个步骤:1) 利用大型语言模型或其他AI系统生成辅助数据;2) 将AI生成的输出作为特征,与人工标注数据一起输入到模型中;3) 构建一个正交矩条件,该条件确保AI辅助信息不会引入偏差,并允许对AI输出与人工标注之间的关系进行灵活建模;4) 使用优化算法估计模型参数,并进行统计推断。

关键创新:GAI的关键创新在于其正交矩构造。这种构造方法能够保证估计的一致性,即使AI生成的辅助信息与真实标签之间的关系复杂且未知。与现有方法相比,GAI不需要对AI输出与真实标签之间的关系进行强假设,从而更加灵活和稳健。此外,GAI还具有“安全默认”属性,即在最坏情况下,其估计效率至少与仅使用人工数据的估计器相当,而在辅助信息具有预测性时,则能显著提高估计效率。

关键设计:GAI的关键设计在于正交矩条件的构建。具体而言,该条件要求AI辅助信息与人工标注数据的残差之间存在正交关系。这种正交性保证了AI辅助信息不会引入偏差,并允许对AI输出与人工标注之间的关系进行非参数建模。此外,GAI还采用了灵活的非参数模型来捕捉AI输出与人工标注之间的复杂关系,例如使用核方法或神经网络。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,GAI在多个应用场景中均优于现有方法。在联合分析中,GAI将估计误差降低了约50%,并将人工标注需求降低了75%以上。在零售定价中,GAI始终优于替代估计器。在健康保险选择中,GAI在保持决策准确性的同时,将标注需求降低了90%以上。此外,GAI还改善了置信区间的覆盖率,而没有扩大宽度,表明其估计结果更加可靠。

🎯 应用场景

GAI框架具有广泛的应用前景,可以应用于各种需要人工标注数据的运营管理场景,例如市场调研、产品定价、客户关系管理和医疗决策等。通过整合AI生成的辅助信息,GAI能够显著降低人工标注成本,提高模型估计的准确性和效率,从而为企业提供更明智的决策支持。此外,GAI还可以应用于其他领域,例如自然语言处理、计算机视觉和机器人等,以提升模型的性能和泛化能力。

📄 摘要(原文)

Data-driven operations management often relies on parameters estimated from costly human-generated labels. Recent advances in large language models (LLMs) and other AI systems offer inexpensive auxiliary data, but introduce a new challenge: AI outputs are not direct observations of the target outcomes, but could involve high-dimensional representations with complex and unknown relationships to human labels. Conventional methods leverage AI predictions as direct proxies for true labels, which can be inefficient or unreliable when this relationship is weak or misspecified. We propose Generative Augmented Inference (GAI), a general framework that incorporates AI-generated outputs as informative features for estimating models of human-labeled outcomes. GAI uses an orthogonal moment construction that enables consistent estimation and valid inference with flexible, nonparametric relationship between LLM-generated outputs and human labels. We establish asymptotic normality and show a "safe default" property: relative to human-data-only estimators, GAI weakly improves estimation efficiency under arbitrary auxiliary signals and yields strict gains whenever the auxiliary information is predictive. Empirically, GAI outperforms benchmarks across diverse settings. In conjoint analysis with weak auxiliary signals, GAI reduces estimation error by about 50% and lowers human labeling requirements by over 75%. In retail pricing, where all methods access the same auxiliary inputs, GAI consistently outperforms alternative estimators, highlighting the value of its construction rather than differences in information. In health insurance choice, it cuts labeling requirements by over 90% while maintaining decision accuracy. Across applications, GAI improves confidence interval coverage without inflating width. Overall, GAI provides a principled and scalable approach to integrating AI-generated information.