Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

作者: Mizanur Rahman, Mohammed Saidul Islam, Md Tahmid Rahman Laskar, Shafiq Joty, Enamul Hoque

分类: cs.CL

发布日期: 2026-01-08

备注: Accepted to EACL Main Conference

🔗 代码/项目: GITHUB

💡 一句话要点

提出RL-Text2Vis，利用多目标强化学习框架提升文本到可视化的语义对齐和质量。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到可视化 强化学习 多目标优化 代码生成 数据可视化

📋 核心要点

现有Text2Vis系统生成的图表缺乏语义对齐和清晰度，且难以在执行前评估，开源模型尤其难以生成高质量可视化。
提出RL-Text2Vis框架，利用Group Relative Policy Optimization (GRPO)和多目标奖励，联合优化文本准确性、代码有效性和可视化质量。
实验结果表明，RL-Text2Vis在图表质量和代码执行成功率方面均显著优于现有方法，并具备良好的泛化能力。

📝 摘要（中文）

本文提出了一种用于文本到可视化（Text2Vis）生成的强化学习框架RL-Text2Vis，旨在将表格数据的自然语言查询转化为简洁的答案和可执行的可视化。尽管闭源LLM可以生成功能代码，但生成的图表通常缺乏语义对齐和清晰度，这些特性只能在执行后评估。开源模型在这方面表现更差，经常产生不可执行或视觉效果差的输出。虽然监督微调可以提高代码的可执行性，但无法提高整体可视化质量，因为传统的SFT损失无法捕捉执行后的反馈。RL-Text2Vis基于Group Relative Policy Optimization (GRPO)，使用一种新颖的多目标奖励，联合优化文本准确性、代码有效性和可视化质量。通过训练Qwen2.5模型（7B和14B），RL-Text2Vis在Text2Vis基准测试中，图表质量相对于GPT-4o提高了22%，代码执行成功率相对于零样本基线提高了78%到97%。该模型显著优于强大的零样本和监督基线，并展示了对领域外数据集（如VIS-Eval和NVBench）的鲁棒泛化能力。这些结果表明GRPO是可视化生成中结构化、多模态推理的有效策略。

🔬 方法详解

问题定义：论文旨在解决Text2Vis任务中，现有方法生成的图表缺乏语义对齐和清晰度，以及开源模型难以生成高质量可视化的问题。现有方法，如监督微调，虽然可以提高代码可执行性，但无法有效提升可视化质量，因为它们无法捕捉执行后的反馈。

核心思路：论文的核心思路是利用强化学习，通过执行后的反馈来优化Text2Vis模型的生成过程。具体来说，通过设计一个多目标奖励函数，同时考虑文本准确性、代码有效性和可视化质量，从而引导模型生成更符合用户意图且高质量的可视化结果。

技术框架：RL-Text2Vis框架基于Group Relative Policy Optimization (GRPO)。整体流程包括：1) 使用Text2Vis模型生成代码和可视化；2) 执行生成的代码，得到可视化结果；3) 根据文本准确性、代码有效性和可视化质量计算多目标奖励；4) 使用GRPO算法更新模型参数，从而优化生成策略。

关键创新：最重要的技术创新点在于提出了一个多目标奖励函数，该函数能够综合考虑文本准确性、代码有效性和可视化质量。与传统的监督学习方法不同，该奖励函数能够捕捉执行后的反馈，从而更有效地优化可视化质量。此外，使用GRPO算法来稳定强化学习训练过程也是一个创新点。

关键设计：多目标奖励函数的设计是关键。它由三个部分组成：文本准确性奖励（衡量生成文本与原始查询的匹配程度）、代码有效性奖励（衡量生成的代码是否可执行）和可视化质量奖励（衡量生成的可视化结果是否清晰、易懂且符合用户意图）。具体实现细节（如奖励函数的具体形式、权重设置等）未知。

📊 实验亮点

RL-Text2Vis在Text2Vis基准测试中，图表质量相对于GPT-4o提高了22%，代码执行成功率相对于零样本基线提高了78%到97%。此外，该模型在领域外数据集（如VIS-Eval和NVBench）上也表现出良好的泛化能力，表明其具有较强的鲁棒性。

🎯 应用场景

该研究成果可应用于各种数据可视化场景，例如商业智能、数据分析、教育等领域。通过将自然语言查询转化为高质量的可视化结果，可以降低数据分析的门槛，帮助用户更轻松地理解和利用数据。未来，该技术有望进一步发展，实现更智能、更个性化的数据可视化。

📄 摘要（原文）

Text-to-Visualization (Text2Vis) systems translate natural language queries over tabular data into concise answers and executable visualizations. While closed-source LLMs generate functional code, the resulting charts often lack semantic alignment and clarity, qualities that can only be assessed post-execution. Open-source models struggle even more, frequently producing non-executable or visually poor outputs. Although supervised fine-tuning can improve code executability, it fails to enhance overall visualization quality, as traditional SFT loss cannot capture post-execution feedback. To address this gap, we propose RL-Text2Vis, the first reinforcement learning framework for Text2Vis generation. Built on Group Relative Policy Optimization (GRPO), our method uses a novel multi-objective reward that jointly optimizes textual accuracy, code validity, and visualization quality using post-execution feedback. By training Qwen2.5 models (7B and 14B), RL-Text2Vis achieves a 22% relative improvement in chart quality over GPT-4o on the Text2Vis benchmark and boosts code execution success from 78% to 97% relative to its zero-shot baseline. Our models significantly outperform strong zero-shot and supervised baselines and also demonstrate robust generalization to out-of-domain datasets like VIS-Eval and NVBench. These results establish GRPO as an effective strategy for structured, multimodal reasoning in visualization generation. We release our code at https://github.com/vis-nlp/RL-Text2Vis.

Aligning Text, Code, and Vision: A Multi-Objective Reinforcement Learning Framework for Text-to-Visualization

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理