Stroke of Surprise: Progressive Semantic Illusions in Vector Sketching

📄 arXiv: 2602.12280v1 📥 PDF

作者: Huai-Hsun Cheng, Siang-Ling Zhang, Yu-Lun Liu

分类: cs.CV

发布日期: 2026-02-12

备注: Project page: https://stroke-of-surprise.github.io/ Code: https://github.com/stroke-of-surprise/Stroke-Of-Surprise


💡 一句话要点

提出Stroke of Surprise框架,实现矢量草图的渐进式语义错觉生成。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 矢量草图 语义错觉 生成模型 序列优化 视觉字谜

📋 核心要点

  1. 现有视觉错觉主要依赖空间操作,缺乏时间维度上的语义转换能力。
  2. 提出Stroke of Surprise框架,通过序列笔画优化,实现草图的渐进式语义演变。
  3. 实验表明,该方法在可识别性和错觉强度上优于现有方法,扩展了视觉字谜的维度。

📝 摘要(中文)

本文提出了一种新颖的矢量草图绘制任务:渐进式语义错觉,即通过顺序添加笔画,使单个草图经历显著的语义转换。为此,我们提出了Stroke of Surprise,一个生成框架,用于优化矢量笔画,以满足不同绘制阶段的不同语义解释。核心挑战在于“双重约束”:初始前缀笔画必须形成一个连贯的对象(例如,鸭子),同时在添加增量笔画后,作为第二个概念(例如,绵羊)的结构基础。为了解决这个问题,我们提出了一个由双分支Score Distillation Sampling (SDS)机制驱动的序列感知联合优化框架。与冻结初始状态的顺序方法不同,我们的方法动态调整前缀笔画,以发现对两个目标都有效的“公共结构子空间”。此外,我们引入了一种新的Overlay Loss,以强制空间互补性,确保结构集成而不是遮挡。大量实验表明,我们的方法在可识别性和错觉强度方面显著优于最先进的基线,成功地将视觉字谜从空间维度扩展到时间维度。

🔬 方法详解

问题定义:现有方法在生成视觉错觉时,主要集中在空间操作上,例如多视角一致性。缺乏一种能够随着时间推移,通过逐步添加笔画来实现语义转换的方法。难点在于如何保证初始笔画既能表达一个清晰的语义概念,又能作为后续笔画的基础,最终形成另一个完全不同的语义概念。这种“双重约束”是现有方法难以解决的。

核心思路:论文的核心思路是寻找一个“公共结构子空间”,使得初始笔画能够同时服务于两个不同的语义目标。通过动态调整初始笔画,而不是像传统方法那样冻结初始状态,可以更好地探索这个公共子空间。此外,通过引入空间互补性的约束,鼓励新添加的笔画与现有笔画形成结构上的集成,而不是简单的遮挡。

技术框架:Stroke of Surprise框架采用序列感知的联合优化方法。该框架包含一个双分支的Score Distillation Sampling (SDS)机制,每个分支对应一个语义目标。框架首先生成初始笔画,然后逐步添加增量笔画,并在每个步骤中优化笔画参数,以同时满足两个语义目标的约束。Overlay Loss用于强制空间互补性,确保结构集成。

关键创新:该方法最重要的创新点在于动态调整初始笔画,以发现“公共结构子空间”。与传统的顺序方法不同,该方法允许初始笔画在优化过程中发生变化,从而更好地适应后续笔画的需求。此外,Overlay Loss的引入,有效地解决了笔画遮挡问题,提高了结构集成的效果。

关键设计:双分支SDS机制分别计算两个语义目标的梯度,并将其用于优化笔画参数。Overlay Loss被设计为惩罚笔画之间的重叠区域,鼓励空间互补性。具体的损失函数形式和权重需要根据实验进行调整。矢量笔画的参数化方式(例如,贝塞尔曲线的控制点)也会影响最终的生成效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Stroke of Surprise在可识别性和错觉强度方面显著优于现有基线方法。通过定量评估和用户研究,证明了该方法能够有效地生成具有强烈语义错觉的矢量草图。与现有方法相比,该方法在生成视觉字谜方面取得了显著的提升。

🎯 应用场景

该研究成果可应用于创意设计、艺术创作、教育娱乐等领域。例如,可以用于生成具有趣味性的视觉谜题,辅助儿童学习绘画,或为艺术家提供新的创作灵感。此外,该技术还可能应用于动画制作、游戏开发等领域,创造更具吸引力的视觉内容。

📄 摘要(原文)

Visual illusions traditionally rely on spatial manipulations such as multi-view consistency. In this work, we introduce Progressive Semantic Illusions, a novel vector sketching task where a single sketch undergoes a dramatic semantic transformation through the sequential addition of strokes. We present Stroke of Surprise, a generative framework that optimizes vector strokes to satisfy distinct semantic interpretations at different drawing stages. The core challenge lies in the "dual-constraint": initial prefix strokes must form a coherent object (e.g., a duck) while simultaneously serving as the structural foundation for a second concept (e.g., a sheep) upon adding delta strokes. To address this, we propose a sequence-aware joint optimization framework driven by a dual-branch Score Distillation Sampling (SDS) mechanism. Unlike sequential approaches that freeze the initial state, our method dynamically adjusts prefix strokes to discover a "common structural subspace" valid for both targets. Furthermore, we introduce a novel Overlay Loss that enforces spatial complementarity, ensuring structural integration rather than occlusion. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art baselines in recognizability and illusion strength, successfully expanding visual anagrams from the spatial to the temporal dimension. Project page: https://stroke-of-surprise.github.io/