AI Agent for Reverse-Engineering Legacy Finite-Difference Code and Translating to Devito
作者: Yinghan Hou, Zongyou Yang
分类: cs.AI, cs.SE
发布日期: 2026-01-26
备注: 14 pages, 7 figures
💡 一句话要点
提出AI Agent框架,用于逆向工程传统有限差分代码并转换为Devito。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: AI Agent 逆向工程 有限差分 Devito 代码转换 知识图谱 检索增强生成 LangGraph
📋 核心要点
- 传统有限差分代码难以迁移到Devito环境,缺乏自动化工具,需要人工干预,效率低下。
- 构建AI Agent框架,结合RAG和大型语言模型,通过知识图谱和多阶段检索,实现代码自动转换。
- 通过静态分析和G-Eval验证框架,保证转换代码的正确性、结构合理性、数学一致性和API合规性。
📝 摘要(中文)
本研究开发了一个集成的AI Agent框架,旨在促进传统有限差分代码向Devito环境的转换。该系统采用混合LangGraph架构,结合了检索增强生成(RAG)和开源大型语言模型,通过多阶段迭代工作流运行。Agent通过文档解析、结构感知分割、实体关系提取和基于Leiden的社区检测,构建了一个广泛的Devito知识图谱。GraphRAG优化增强了跨语义社区(包括地震波模拟、计算流体动力学和性能调优库)的查询性能。逆向工程组件通过Fortran源代码的静态分析,为RAG检索推导出三级查询策略。多阶段检索管道执行并行搜索、概念扩展、社区规模检索和语义相似性分析,从而为语言模型指导提供精确的上下文信息。代码生成由基于Pydantic的约束控制,以保证结构化输出和可靠性。一个全面的验证框架集成了传统的静态分析与G-Eval方法,涵盖执行正确性、结构合理性、数学一致性和API合规性。整个Agent工作流在LangGraph框架上实现,并采用并发处理来支持基于质量的迭代改进和状态感知动态路由。主要贡献在于引入了受强化学习启发的反馈机制,从而实现了从静态代码翻译到动态自适应分析行为的转变。
🔬 方法详解
问题定义:本论文旨在解决将遗留的有限差分代码(特别是Fortran)自动转换为Devito框架代码的问题。现有方法依赖于手动转换,耗时且容易出错,缺乏自动化工具支持。痛点在于理解遗留代码的复杂逻辑,并将其准确映射到Devito的API和结构。
核心思路:核心思路是利用AI Agent,结合检索增强生成(RAG)和大型语言模型(LLM),通过知识图谱和多阶段检索,理解遗留代码的语义,并生成相应的Devito代码。通过反馈机制,使Agent能够动态适应和改进转换过程。
技术框架:整体框架基于LangGraph架构,包含以下主要模块:1) Devito知识图谱构建:通过解析Devito文档,提取实体关系,构建知识图谱。2) 逆向工程:通过静态分析Fortran代码,生成查询策略。3) 多阶段检索:并行搜索、概念扩展、社区规模检索和语义相似性分析。4) 代码生成:基于Pydantic约束,生成结构化Devito代码。5) 验证框架:采用静态分析和G-Eval方法,验证代码的正确性。
关键创新:最重要的创新点在于将强化学习的反馈机制融入到代码转换过程中,使Agent能够从错误中学习,动态调整策略,实现从静态代码翻译到动态自适应分析行为的转变。此外,GraphRAG优化增强了跨语义社区的查询性能,提高了检索效率。
关键设计:在多阶段检索中,设计了三级查询策略,包括概念扩展、社区规模检索和语义相似性分析,以提高检索的准确性。代码生成过程中,使用Pydantic进行约束,保证生成的Devito代码符合规范。验证框架集成了静态分析和G-Eval,从多个维度验证代码的正确性。
🖼️ 关键图片
📊 实验亮点
论文提出了一个完整的AI Agent框架,能够自动将Fortran有限差分代码转换为Devito代码。通过知识图谱和多阶段检索,提高了代码转换的准确性和效率。引入强化学习反馈机制,使Agent能够动态适应和改进转换过程。实验结果(具体数据未知)表明,该方法能够有效降低人工干预,提高代码迁移效率。
🎯 应用场景
该研究成果可应用于地震波模拟、计算流体动力学等领域,加速传统科学计算代码的现代化改造,降低开发成本,提高计算效率。未来可扩展到其他科学计算框架和编程语言,实现更广泛的代码迁移和优化。
📄 摘要(原文)
To facilitate the transformation of legacy finite difference implementations into the Devito environment, this study develops an integrated AI agent framework. Retrieval-Augmented Generation (RAG) and open-source Large Language Models are combined through multi-stage iterative workflows in the system's hybrid LangGraph architecture. The agent constructs an extensive Devito knowledge graph through document parsing, structure-aware segmentation, extraction of entity relationships, and Leiden-based community detection. GraphRAG optimisation enhances query performance across semantic communities that include seismic wave simulation, computational fluid dynamics, and performance tuning libraries. A reverse engineering component derives three-level query strategies for RAG retrieval through static analysis of Fortran source code. To deliver precise contextual information for language model guidance, the multi-stage retrieval pipeline performs parallel searching, concept expansion, community-scale retrieval, and semantic similarity analysis. Code synthesis is governed by Pydantic-based constraints to guarantee structured outputs and reliability. A comprehensive validation framework integrates conventional static analysis with the G-Eval approach, covering execution correctness, structural soundness, mathematical consistency, and API compliance. The overall agent workflow is implemented on the LangGraph framework and adopts concurrent processing to support quality-based iterative refinement and state-aware dynamic routing. The principal contribution lies in the incorporation of feedback mechanisms motivated by reinforcement learning, enabling a transition from static code translation toward dynamic and adaptive analytical behavior.