AI Agent for Reverse-Engineering Legacy Finite-Difference Code and Translating to Devito

作者: Yinghan Hou, Zongyou Yang

分类: cs.AI, cs.SE

发布日期: 2026-01-26

备注: 14 pages, 7 figures

💡 一句话要点

提出AI Agent框架，用于逆向工程传统有限差分代码并转换为Devito。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: AI Agent 逆向工程 有限差分 Devito 代码转换 知识图谱 检索增强生成 LangGraph

📋 核心要点

传统有限差分代码难以迁移到Devito环境，缺乏自动化工具，需要人工干预，效率低下。
构建AI Agent框架，结合RAG和大型语言模型，通过知识图谱和多阶段检索，实现代码自动转换。
通过静态分析和G-Eval验证框架，保证转换代码的正确性、结构合理性、数学一致性和API合规性。

📝 摘要（中文）

本研究开发了一个集成的AI Agent框架，旨在促进传统有限差分代码向Devito环境的转换。该系统采用混合LangGraph架构，结合了检索增强生成（RAG）和开源大型语言模型，通过多阶段迭代工作流运行。Agent通过文档解析、结构感知分割、实体关系提取和基于Leiden的社区检测，构建了一个广泛的Devito知识图谱。GraphRAG优化增强了跨语义社区（包括地震波模拟、计算流体动力学和性能调优库）的查询性能。逆向工程组件通过Fortran源代码的静态分析，为RAG检索推导出三级查询策略。多阶段检索管道执行并行搜索、概念扩展、社区规模检索和语义相似性分析，从而为语言模型指导提供精确的上下文信息。代码生成由基于Pydantic的约束控制，以保证结构化输出和可靠性。一个全面的验证框架集成了传统的静态分析与G-Eval方法，涵盖执行正确性、结构合理性、数学一致性和API合规性。整个Agent工作流在LangGraph框架上实现，并采用并发处理来支持基于质量的迭代改进和状态感知动态路由。主要贡献在于引入了受强化学习启发的反馈机制，从而实现了从静态代码翻译到动态自适应分析行为的转变。

🔬 方法详解

问题定义：本论文旨在解决将遗留的有限差分代码（特别是Fortran）自动转换为Devito框架代码的问题。现有方法依赖于手动转换，耗时且容易出错，缺乏自动化工具支持。痛点在于理解遗留代码的复杂逻辑，并将其准确映射到Devito的API和结构。

核心思路：核心思路是利用AI Agent，结合检索增强生成（RAG）和大型语言模型（LLM），通过知识图谱和多阶段检索，理解遗留代码的语义，并生成相应的Devito代码。通过反馈机制，使Agent能够动态适应和改进转换过程。

技术框架：整体框架基于LangGraph架构，包含以下主要模块：1) Devito知识图谱构建：通过解析Devito文档，提取实体关系，构建知识图谱。2) 逆向工程：通过静态分析Fortran代码，生成查询策略。3) 多阶段检索：并行搜索、概念扩展、社区规模检索和语义相似性分析。4) 代码生成：基于Pydantic约束，生成结构化Devito代码。5) 验证框架：采用静态分析和G-Eval方法，验证代码的正确性。

关键创新：最重要的创新点在于将强化学习的反馈机制融入到代码转换过程中，使Agent能够从错误中学习，动态调整策略，实现从静态代码翻译到动态自适应分析行为的转变。此外，GraphRAG优化增强了跨语义社区的查询性能，提高了检索效率。

关键设计：在多阶段检索中，设计了三级查询策略，包括概念扩展、社区规模检索和语义相似性分析，以提高检索的准确性。代码生成过程中，使用Pydantic进行约束，保证生成的Devito代码符合规范。验证框架集成了静态分析和G-Eval，从多个维度验证代码的正确性。

🖼️ 关键图片

📊 实验亮点

论文提出了一个完整的AI Agent框架，能够自动将Fortran有限差分代码转换为Devito代码。通过知识图谱和多阶段检索，提高了代码转换的准确性和效率。引入强化学习反馈机制，使Agent能够动态适应和改进转换过程。实验结果（具体数据未知）表明，该方法能够有效降低人工干预，提高代码迁移效率。

🎯 应用场景

该研究成果可应用于地震波模拟、计算流体动力学等领域，加速传统科学计算代码的现代化改造，降低开发成本，提高计算效率。未来可扩展到其他科学计算框架和编程语言，实现更广泛的代码迁移和优化。

📄 摘要（原文）

To facilitate the transformation of legacy finite difference implementations into the Devito environment, this study develops an integrated AI agent framework. Retrieval-Augmented Generation (RAG) and open-source Large Language Models are combined through multi-stage iterative workflows in the system's hybrid LangGraph architecture. The agent constructs an extensive Devito knowledge graph through document parsing, structure-aware segmentation, extraction of entity relationships, and Leiden-based community detection. GraphRAG optimisation enhances query performance across semantic communities that include seismic wave simulation, computational fluid dynamics, and performance tuning libraries. A reverse engineering component derives three-level query strategies for RAG retrieval through static analysis of Fortran source code. To deliver precise contextual information for language model guidance, the multi-stage retrieval pipeline performs parallel searching, concept expansion, community-scale retrieval, and semantic similarity analysis. Code synthesis is governed by Pydantic-based constraints to guarantee structured outputs and reliability. A comprehensive validation framework integrates conventional static analysis with the G-Eval approach, covering execution correctness, structural soundness, mathematical consistency, and API compliance. The overall agent workflow is implemented on the LangGraph framework and adopts concurrent processing to support quality-based iterative refinement and state-aware dynamic routing. The principal contribution lies in the incorporation of feedback mechanisms motivated by reinforcement learning, enabling a transition from static code translation toward dynamic and adaptive analytical behavior.

AI Agent for Reverse-Engineering Legacy Finite-Difference Code and Translating to Devito

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理