Pixelis: Reasoning in Pixels, from Seeing to Acting
作者: Yunpeng Zhou
分类: cs.CV, cs.AI
发布日期: 2026-03-26
备注: 28pages, 16figures, 18tables
💡 一句话要点
Pixelis:提出像素级推理Agent,通过执行操作和学习结果,提升视觉语言系统的泛化性和物理基础。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 具身智能 像素级推理 强化学习 自适应学习 图像操作 机器人导航
📋 核心要点
- 现有视觉语言系统缺乏行动能力,难以泛化到真实世界,并且在数据分布变化时表现不佳。
- Pixelis提出了一种像素空间Agent,通过学习执行一系列图像操作,并从操作结果中学习,从而实现具身智能。
- 实验表明,Pixelis在多个图像和视频基准测试中取得了显著提升,平均相对增益为+4.08%,最高达+6.03%。
📝 摘要(中文)
大多数视觉语言系统是静态观察者,只能描述像素,无法执行操作,并且在数据分布偏移下难以安全地改进。这种被动性限制了可泛化的、具有物理基础的视觉智能。通过行动而非静态描述进行学习,对于超越精心策划的数据至关重要。本文提出了Pixelis,一个像素空间Agent,它直接在图像和视频上操作,通过一组紧凑的可执行操作(缩放/裁剪、分割、跟踪、OCR、时间定位),并从其结果中学习。Pixelis的训练分为三个阶段:(1)监督微调,从Chain-of-Thought-Action轨迹中学习像素工具语法,使用masked imitation loss,该loss提升了操作/参数token的权重,并使用辅助头来稳定像素级别的参数;(2)Curiosity-Coherence Reward微调,优化一个双驱动目标,将预测误差的好奇心与相邻步骤的连贯性以及KL anchor下的温和效率先验相结合,从而产生简短、有效、结构化的工具链;(3)Pixel Test-Time RL,通过检索邻居、对完整轨迹而非答案进行投票,并更新到简短、高保真的示例,同时使用KL-to-EMA安全控制来约束漂移,从而执行无标签的自适应。在六个公共图像和视频基准测试中,Pixelis产生了持续的改进:相对于相同的8B baseline,平均相对增益为+4.08%(在VSI-Bench上达到+6.03%的峰值),计算方式为(ours-baseline)/baseline,同时产生更短、可审计的工具链,并在测试时学习期间保持在走廊内的KL散度。在像素内行动,而不是抽象token,将多模态感知建立在物理世界中,将视觉推理与可操作的结果联系起来,并实现无需外部反馈的具身自适应。
🔬 方法详解
问题定义:现有视觉语言模型通常是静态的,只能被动地观察和描述图像,缺乏与环境交互的能力。这限制了它们在真实世界场景中的应用,尤其是在数据分布发生变化时,模型的性能会显著下降。现有方法难以将视觉感知与实际行动联系起来,缺乏物理世界的 grounding。
核心思路:Pixelis的核心思路是通过让Agent直接在像素空间中执行操作,并从操作的结果中学习,从而实现具身智能。Agent通过学习一系列可执行的图像操作(如缩放、裁剪、分割等),来与环境进行交互,并根据操作的结果来调整自身的行为。这种基于行动的学习方式能够更好地泛化到真实世界场景,并提高模型在数据分布变化时的鲁棒性。
技术框架:Pixelis的训练分为三个阶段: 1. 监督微调(Supervised Fine-Tuning):使用Chain-of-Thought-Action轨迹来学习像素工具语法,通过masked imitation loss来优化操作和参数的预测,并使用辅助头来稳定像素级别的参数。 2. Curiosity-Coherence Reward微调:优化一个双驱动目标,将预测误差的好奇心与相邻步骤的连贯性以及效率先验相结合,从而产生简短、有效、结构化的工具链。 3. Pixel Test-Time RL:在测试时,通过检索邻居、对完整轨迹进行投票,并更新到高保真示例,同时使用KL-to-EMA安全控制来约束漂移,从而实现无标签的自适应。
关键创新:Pixelis的关键创新在于提出了一个像素空间Agent,它直接在像素级别进行推理和操作,而不是在抽象的token空间中。这种方法能够更好地将视觉感知与实际行动联系起来,并提高模型在真实世界场景中的泛化能力。此外,Pixelis还提出了一种新颖的训练方法,结合了监督学习、强化学习和自适应学习,从而能够有效地学习像素工具语法和优化Agent的行为。
关键设计: * 操作集:定义了一组紧凑的可执行操作,包括缩放/裁剪、分割、跟踪、OCR和时间定位。 * 损失函数:使用了masked imitation loss来优化操作和参数的预测,并使用KL散度来约束Agent的行为。 * 奖励函数:设计了一个双驱动奖励函数,结合了预测误差的好奇心、相邻步骤的连贯性和效率先验。 * 安全控制:使用KL-to-EMA安全控制来约束Agent在测试时的行为漂移。
🖼️ 关键图片
📊 实验亮点
Pixelis在六个公共图像和视频基准测试中取得了显著的性能提升。相对于相同的8B baseline,平均相对增益为+4.08%,在VSI-Bench上达到+6.03%的峰值。此外,Pixelis还能够生成更短、可审计的工具链,并在测试时学习期间保持在走廊内的KL散度,表明其具有较好的稳定性和安全性。
🎯 应用场景
Pixelis具有广泛的应用前景,例如机器人导航、自动驾驶、智能助手等。它可以应用于需要视觉感知和行动能力的各种场景,例如在未知环境中进行探索和导航,或者根据用户的指令执行特定的任务。Pixelis的具身智能方法可以帮助机器人更好地理解和适应真实世界,从而实现更智能、更自主的行为。
📄 摘要(原文)
Most vision-language systems are static observers: they describe pixels, do not act, and cannot safely improve under shift. This passivity limits generalizable, physically grounded visual intelligence. Learning through action, not static description, is essential beyond curated data. We present Pixelis, a pixel-space agent that operates directly on images and videos via a compact set of executable operations (zoom/crop, segment, track, OCR, temporal localization) and learns from its consequences. Pixelis trains in three phases: (1) Supervised Fine-Tuning learns a pixel-tool grammar from Chain-of-Thought-Action traces with a masked imitation loss that upweights operation/argument tokens and auxiliary heads to stabilize pixel-grounded arguments; (2) Curiosity-Coherence Reward Fine-Tuning optimizes a dual-drive objective marrying prediction-error curiosity with adjacent-step coherence and a mild efficiency prior under a KL anchor, yielding short, valid, structured toolchains; (3) Pixel Test-Time RL performs label-free adaptation by retrieving neighbors, voting over complete trajectories rather than answers, and updating toward short, high-fidelity exemplars while constraining drift with a KL-to-EMA safety control. Across six public image and video benchmarks, Pixelis yields consistent improvements: the average relative gain is +4.08% over the same 8B baseline (peaking at +6.03% on VSI-Bench), computed as (ours-baseline)/baseline, while producing shorter, auditable toolchains and maintaining in-corridor KL during test-time learning. Acting within pixels, rather than abstract tokens, grounds multimodal perception in the physical world, linking visual reasoning with actionable outcomes, and enables embodied adaptation without external feedback.