nvBench 2.0: Resolving Ambiguity in Text-to-Visualization through Stepwise Reasoning
作者: Tianqi Luo, Chuhan Huang, Leixian Shen, Boyan Li, Shuyu Shen, Wei Zeng, Nan Tang, Yuyu Luo
分类: cs.CL, cs.AI
发布日期: 2025-03-17 (更新: 2026-01-04)
💡 一句话要点
提出nvBench 2.0基准与Step-Text2Vis模型,解决文本到可视化任务中歧义查询的难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到可视化 歧义查询 基准数据集 大型语言模型 偏好优化 数据可视化 自然语言处理
📋 核心要点
- Text2VIS面临用户查询歧义的挑战,用户通常使用不精确的语言表达可视化需求,导致系统难以准确理解。
- 论文提出nvBench 2.0基准,通过可控的歧义注入流程生成带有多种有效解释的歧义查询,并提供逐步推理路径。
- 论文提出Step-Text2Vis模型,通过在nvBench 2.0上训练,利用逐步偏好优化,提升了在歧义场景下的Text2VIS性能。
📝 摘要(中文)
本文提出了nvBench 2.0,一个新的基准,旨在评估Text2VIS系统在处理歧义查询场景下的性能。nvBench 2.0包含7,878个自然语言查询和24,076个对应的可视化结果,这些数据来源于153个领域的780个表格。该基准通过一个可控的歧义注入流程构建,该流程通过反向生成工作流生成歧义查询。从明确的种子可视化开始,选择性地注入歧义,该流程为每个查询产生多个有效的解释,并且每个歧义查询都可以通过逐步推理路径追溯到其对应的可视化结果。此外,本文还评估了各种大型语言模型(LLM)在nvBench 2.0上执行歧义Text2VIS任务的能力。同时,提出了Step-Text2Vis,一个基于LLM的模型,该模型在nvBench 2.0上进行训练,通过逐步偏好优化来提高在歧义场景下的性能。实验结果表明,Step-Text2Vis优于所有基线模型,为歧义Text2VIS任务设定了新的技术水平。源代码和数据可在https://nvbench2.github.io/获取。
🔬 方法详解
问题定义:Text-to-Visualization (Text2VIS) 旨在根据自然语言查询创建可视化,但现有方法难以处理用户查询中存在的歧义性。用户通常使用不精确的语言表达可视化需求,导致系统无法准确理解用户的意图,从而生成错误或不符合预期的可视化结果。现有的Text2VIS系统缺乏有效处理歧义查询的能力,导致用户体验不佳。
核心思路:本文的核心思路是通过构建一个包含歧义查询的基准数据集(nvBench 2.0),并在此基础上训练一个能够逐步推理和优化偏好的模型(Step-Text2Vis),从而提高Text2VIS系统处理歧义查询的能力。通过可控的歧义注入流程,nvBench 2.0能够为每个查询生成多个有效的解释,并提供逐步推理路径,从而帮助模型学习如何区分不同的解释并选择最符合用户意图的可视化结果。
技术框架:整体框架包含两个主要部分:nvBench 2.0基准数据集的构建和Step-Text2Vis模型的训练。nvBench 2.0的构建采用反向生成工作流,从明确的种子可视化开始,选择性地注入歧义,生成多个有效的解释。Step-Text2Vis模型基于大型语言模型(LLM),通过在nvBench 2.0上进行训练,学习如何根据歧义查询生成相应的可视化结果。训练过程中,采用逐步偏好优化策略,使模型能够更好地理解用户意图并选择最符合用户意图的可视化结果。
关键创新:本文最重要的技术创新点在于提出了一个可控的歧义注入流程,能够为每个查询生成多个有效的解释,并提供逐步推理路径。这使得nvBench 2.0成为一个非常有价值的基准数据集,可以用于评估Text2VIS系统处理歧义查询的能力。此外,Step-Text2Vis模型通过逐步偏好优化策略,能够更好地理解用户意图并选择最符合用户意图的可视化结果,从而提高了Text2VIS系统的性能。
关键设计:nvBench 2.0的歧义注入流程包括多个步骤,例如添加同义词、省略关键词、改变语序等。Step-Text2Vis模型采用Transformer架构,并使用交叉熵损失函数进行训练。逐步偏好优化策略通过强化学习实现,模型根据生成的可视化结果与用户意图的匹配程度获得奖励,从而不断优化自身的参数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,Step-Text2Vis模型在nvBench 2.0基准上取得了显著的性能提升,优于所有基线模型,为歧义Text2VIS任务设定了新的技术水平。具体而言,Step-Text2Vis模型在准确率、召回率和F1值等指标上均取得了显著提升,表明其能够更好地理解用户意图并生成符合用户期望的可视化结果。
🎯 应用场景
该研究成果可广泛应用于数据可视化领域,例如商业智能、数据分析、科学研究等。通过提高Text2VIS系统处理歧义查询的能力,可以使数据可视化更加易于使用,从而帮助用户更好地理解和利用数据。未来,该技术还可以应用于智能助手、聊天机器人等领域,实现更加自然和智能的人机交互。
📄 摘要(原文)
Text-to-Visualization (Text2VIS) enables users to create visualizations from natural language queries, making data insights more accessible. However, Text2VIS faces challenges in interpreting ambiguous queries, as users often express their visualization needs in imprecise language. To address this challenge, we introduce nBench 2.0, a new benchmark designed to evaluate Text2VIS systems in scenarios involving ambiguous queries. nvBench 2.0 includes 7,878 natural language queries and 24,076 corresponding visualizations, derived from 780 tables across 153 domains. It is built using a controlled ambiguity-injection pipeline that generates ambiguous queries through a reverse-generation workflow. By starting with unambiguous seed visualizations and selectively injecting ambiguities, the pipeline yields multiple valid interpretations for each query, with each ambiguous query traceable to its corresponding visualization through step-wise reasoning paths. We evaluate various Large Language Models (LLMs) on their ability to perform ambiguous Text2VIS tasks using nBench 2.0. We also propose Step-Text2Vis, an LLM-based model trained on nvBench 2.0, which enhances performance in ambiguous scenarios through step-wise preference optimization. Our results show that Step-Text2Vis outperforms all baselines, setting a new state-of-the-art for ambiguous Text2VIS tasks. Our source code and data are available at https://nvbench2.github.io/