From Mirage to Grounding: Towards Reliable Multimodal Circuit-to-Verilog Code Generation

📄 arXiv: 2604.27969v1 📥 PDF

作者: Guang Yang, Xing Hu, Xiang Chen, Xin Xi

分类: cs.SE, cs.AI

发布日期: 2026-04-30


💡 一句话要点

揭示MLLM电路图到Verilog代码生成中的“幻影”现象,提出VeriGround模型提升可靠性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 代码生成 电路图识别 Verilog代码 幻影现象 可靠性 标识符匿名化

📋 核心要点

  1. 现有MLLM在电路图到Verilog代码生成中存在“幻影”现象,模型依赖标识符而非视觉信息生成代码,导致可靠性问题。
  2. 论文提出VeriGround模型,通过标识符匿名化、拒绝增强和D-ORPO偏好对齐等方法,提升模型对视觉信息的依赖。
  3. 实验表明,VeriGround在匿名化标识符的情况下,显著优于其他模型,证明了其具有更强的视觉理解能力和代码生成可靠性。

📝 摘要(中文)

多模态大型语言模型(MLLM)越来越多地被用于将视觉信息转化为代码,例如将UI模型转化为HTML,或将科学绘图转化为Python脚本。电路图可以被视为硬件的一种视觉领域特定语言,它编码了时间、拓扑和位级语义,这些信息对于肉眼观察是不可见的,但对于芯片制造的安全性至关重要。将电路图转化为寄存器传输级(RTL)代码代表了视觉到代码生成可靠性的一个极端测试。我们揭示了一种称为“幻影”的现象:用空白图像替换电路图,Pass@k指标保持不变甚至更高,因为模型绕过了视觉输入,而是利用模块头中的标识符语义来检索规范的RTL模板。这构成了一种新型的、高度隐蔽的AI辅助代码生成缺陷,直接损害了MLLM的可信度。为了量化这种影响,我们构建了C2VEVAL,并在配对的Normal/Anony协议下评估了八个MLLM,其中Anony模式匿名化了图和模块头中的所有标识符;Anony模式下的分数急剧下降,证实了Normal模式下的高精度很大程度上是一种“幻影”。然后,我们提出了VeriGround (4B),它通过标识符匿名化、拒绝增强和D-ORPO(决策导向的ORPO)偏好对齐进行训练,后者提高了关键的生成或拒绝token的权重。VeriGround在Normal/Anony模式下实现了46.11%/42.51%的功能性Pass@1,假拒绝率仅为1.20%/0.00%,同时在空白图像上保持>92%的拒绝率。VeriGround仅有4B参数,在Normal模式下与GPT-5.4性能相当,在Anony模式下显著优于所有基线,证实了真正的视觉基础。

🔬 方法详解

问题定义:论文旨在解决多模态大型语言模型(MLLM)在将电路图转换为Verilog代码时存在的可靠性问题。现有方法,即使在视觉输入缺失的情况下,也能产生看似正确的代码,这是因为模型利用了电路图模块头中的标识符信息,而非真正理解电路图的视觉内容。这种“幻影”现象严重降低了MLLM在安全关键应用中的可信度。

核心思路:论文的核心思路是迫使模型真正依赖视觉信息进行代码生成,而不是仅仅依赖标识符的语义。通过在训练过程中对标识符进行匿名化处理,模型无法再通过标识符检索预定义的代码模板,从而必须学习理解电路图的视觉特征。此外,通过拒绝增强和决策导向的偏好对齐,进一步提升模型在不确定情况下的拒绝能力和代码生成的准确性。

技术框架:VeriGround的训练框架主要包含以下几个关键模块:1) 数据准备:构建包含电路图和对应Verilog代码的数据集,并对数据集进行处理,包括标识符匿名化。2) 模型训练:使用处理后的数据集训练MLLM,采用拒绝增强策略,鼓励模型在不确定情况下拒绝生成代码。3) 偏好对齐:使用D-ORPO(Decision-Focused ORPO)方法对模型进行偏好对齐,提升模型生成正确代码的能力。

关键创新:论文的关键创新在于:1) 揭示了MLLM在电路图到Verilog代码生成中存在的“幻影”现象,并提出了相应的评估方法。2) 提出了VeriGround模型,通过标识符匿名化、拒绝增强和D-ORPO偏好对齐等方法,有效解决了“幻影”问题,提升了代码生成的可靠性。3) D-ORPO偏好对齐方法,通过提高关键token(生成或拒绝)的权重,更有效地引导模型学习正确的行为。

关键设计:VeriGround模型使用了4B参数的MLLM。标识符匿名化通过替换电路图和模块头中的标识符为随机字符串实现。拒绝增强通过在训练数据中加入空白图像,并鼓励模型拒绝生成代码来实现。D-ORPO偏好对齐方法通过调整损失函数中不同token的权重,使得模型更加关注生成或拒绝token,从而提升模型的性能。具体来说,D-ORPO损失函数会增加模型在关键决策点(例如,生成代码或拒绝生成)上的置信度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

VeriGround模型在C2VEVAL数据集上取得了显著的性能提升。在Normal模式下,Functional Pass@1达到46.11%,与GPT-5.4相当;在Anony模式下,Functional Pass@1达到42.51%,显著优于所有基线模型,证明了其更强的视觉理解能力。同时,VeriGround在空白图像上保持了>92%的拒绝率,有效避免了“幻影”现象。

🎯 应用场景

该研究成果可应用于AI辅助的硬件设计自动化领域,例如自动将电路图转换为可执行的Verilog代码,加速硬件开发流程。通过提高代码生成的可信度,可以减少人工验证的工作量,降低硬件设计的错误率,并最终提升硬件产品的质量和可靠性。未来,该技术有望扩展到其他视觉到代码的转换任务中。

📄 摘要(原文)

Multimodal large language models (MLLMs) are increasingly used to translate visual artifacts into code, from UI mockups into HTML to scientific plots into Python scripts. A circuit diagram can be viewed as a visual domain-specific language for hardware: it encodes timing, topology, and bit level semantics that are invisible to casual inspection yet safety critical once fabricated in silicon. Translating such diagrams into register-transfer-level(RTL) code therefore represents an extreme reliability test for vision-to-code generation. We reveal a phenomenon we call Mirage: replacing a circuit diagram with a blank image leaves Pass@k unchanged or even higher, because models bypass the visual input and instead exploit identifier semantics in the module header to retrieve canonical RTL templates. This constitutes a new, highly covert class of defect in AI-assisted code generation that directly undermines MLLMs' trustworthiness. To quantify the effect, we construct C2VEVAL and evaluate eight MLLMs under a paired Normal/Anony protocol in which Anony mode anonymizes all identifiers in both the diagram and the module header; Anony-mode scores drop sharply across all models, confirming that high Normal-mode accuracy is largely a Mirage. We then propose VeriGround (4B), trained with identifier anonymization, refusal augmentation, and D-ORPO (Decision-Focused ORPO) preference alignment that up-weights pivotal generate-or-refuse tokens. VeriGround achieves Functional Pass@1 of 46.11%/42.51%(Normal/Anony) with a False Refusal Rate of only 1.20%/0.00%, while maintaining >92% Refusal Rate on blank images. With only 4B parameters, VeriGround performs on par with GPT-5.4 under Normal and significantly outperforms all baselines under Anony, confirming genuine visual grounding.