TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL
作者: Tianze Yang, Yucheng Shi, Ruitong Sun, Jingyuan Huang, Ninghao Liu, Jin Sun
分类: cs.AI
发布日期: 2026-06-01
备注: 27 pages, 8 figures
💡 一句话要点
TRON:面向视觉推理强化学习的可控规则验证在线环境
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉推理 强化学习 在线环境 多模态学习 可控生成 课程学习 生成器-验证器 视觉问答
📋 核心要点
- 现有视觉推理强化学习受限于静态数据集,缺乏可扩展性和可控性,难以生成多样化的训练样本。
- TRON通过可控的生成器-验证器程序,按需生成训练样本,实现无限量、难度可控的在线训练。
- 实验表明,使用TRON进行强化学习后训练,在多个多模态推理基准上显著提升了现有模型的性能。
📝 摘要(中文)
针对视觉推理的强化学习需要可扩展、可验证和可控的训练信号。现有的视觉强化学习后训练通常在静态数据集上进行,受限于数据收集预算,图像-问题-答案样本是固定的。本文提出了TRON(Targeted, Rule-verifiable Online eNvironments),一种在线环境基底:训练过程由可控的生成器-验证器程序按需生成,该程序采样新的潜在视觉状态,渲染图像,提出问题,并精确验证答案。因此,单次运行可以提取难度级别符合当前课程要求的无限量的新实例。当前的TRON套件包含520个环境,分为五个能力类别(空间、数学、图表、模式/逻辑和计数);同一基底支持在所有类别上训练的单个完整模型和每个类别的能力专家模型,无需额外的数据收集。我们还介绍了基底分析,涵盖生成可靠性、实例和级别多样性、跨环境的近似重复数据以及基础模型按难度级别的通过率。使用METHOD进行的强化学习后训练持续提高了Qwen3-VL-4B、Qwen2.5-VL-7B和MiMo-VL-7B-SFT在十个外部多模态推理基准上的性能。
🔬 方法详解
问题定义:现有视觉推理强化学习方法依赖于预先收集的静态数据集,这些数据集的规模和多样性受到收集成本的限制。此外,这些方法难以控制训练样本的难度,无法有效地进行课程学习。因此,如何生成无限量、难度可控的视觉推理训练数据,是当前视觉推理强化学习面临的关键问题。
核心思路:TRON的核心思路是构建一个可控的在线环境,该环境能够根据当前模型的学习进度,动态生成具有特定难度和类型的视觉推理问题。通过生成器-验证器程序,TRON可以精确控制训练样本的生成过程,并确保答案的正确性。这种在线生成的方式避免了对大规模静态数据集的依赖,提高了训练效率和灵活性。
技术框架:TRON的技术框架主要包括以下几个模块:1) 潜在视觉状态采样器:负责采样新的潜在视觉状态,例如物体的位置、形状和颜色等。2) 图像渲染器:根据潜在视觉状态,渲染出对应的图像。3) 问题生成器:根据图像生成相应的视觉推理问题。4) 答案验证器:精确验证问题的答案。整个流程是循环的,根据模型的学习情况,动态调整问题难度,实现课程学习。
关键创新:TRON最重要的技术创新在于其可控的在线环境生成能力。与传统的静态数据集训练方法不同,TRON可以根据模型的学习进度,动态生成具有特定难度和类型的视觉推理问题。这种在线生成的方式避免了对大规模静态数据集的依赖,提高了训练效率和灵活性。此外,TRON的生成器-验证器程序可以精确控制训练样本的生成过程,并确保答案的正确性,从而提高了训练的可靠性。
关键设计:TRON套件包含520个环境,分为五个能力类别(空间、数学、图表、模式/逻辑和计数)。每个环境都包含一个生成器-验证器程序,该程序可以根据预定义的规则和参数,生成具有特定难度和类型的视觉推理问题。生成器-验证器程序的设计需要仔细考虑,以确保生成的问题具有多样性和挑战性,同时答案的验证也需要足够精确,以避免引入噪声。具体的参数设置和规则设计取决于不同的能力类别和环境。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用TRON进行强化学习后训练,在Qwen3-VL-4B、Qwen2.5-VL-7B和MiMo-VL-7B-SFT等模型上,在十个外部多模态推理基准上持续提高了性能。具体提升幅度未知,但强调了TRON在不同模型和基准上的泛化能力和有效性。
🎯 应用场景
TRON具有广泛的应用前景,可用于训练各种视觉推理模型,例如视觉问答、图像描述和视觉导航等。该研究成果可以促进智能体在复杂视觉环境中的推理能力,应用于机器人、自动驾驶、智能助手等领域,提升其感知和决策能力。未来,TRON可以扩展到更复杂的视觉场景和推理任务,例如视频理解和三维场景推理。
📄 摘要(原文)
Reinforcement learning (RL) for visual reasoning needs scalable, verifiable, and controllable training signals. Existing visual RL post-training trains on static curated datasets, with fixed image-question-answer samples bounded by their collection budget. In this work, we introduce TRON (Targeted, Rule-verifiable Online eNvironments), an online environment substrate: a training rollout is generated on demand by a controllable generator-verifier program that samples a fresh latent visual state, renders an image, asks a question, and exactly verifies the answer. A single run can therefore draw an unbounded stream of fresh instances at the difficulty level required by the current curriculum. The current TRON suite contains 520 environments organized into five ability buckets (spatial, mathematical, diagram, pattern/logic, and counting); the same substrate supports both a single full model trained on all buckets and per-bucket ability-specialist models, with no additional data collection. We also introduce a substrate analysis covering generation reliability, instance and level diversity, cross-environment near-duplicates, and base-model pass rate by difficulty level. RL post-training with METHOD consistently improves performance on ten external multimodal reasoning benchmarks across Qwen3-VL-4B, Qwen2.5-VL-7B, and MiMo-VL-7B-SFT.