Fine-tuned LLM-based Code Migration Framework

📄 arXiv: 2512.13515v3 📥 PDF

作者: Oleg Grynets, Vasyl Lyashkevych, Dmytro Baran, Maksym Orliansky, Taras Zelenyy, Markiian Leshchyshyn

分类: cs.SE, cs.CL, cs.LO

发布日期: 2025-12-15 (更新: 2026-02-05)

备注: 16 pages, 27 figures, 7 references


💡 一句话要点

提出基于微调LLM的代码迁移框架,解决SQL系统迁移难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 代码迁移 大型语言模型 SQL转换 数据库迁移 自动化迁移 微调 半监督学习

📋 核心要点

  1. 现有SQL系统迁移面临语法差异、数据库逻辑转换等挑战,传统方法效率低且易出错。
  2. 该框架通过微调大型语言模型,实现SQL代码的自动转换和优化,提升迁移的精确性和效率。
  3. 实验结果表明,该方法能显著降低语法错误率,并增强特征对齐,实现持续改进。

📝 摘要(中文)

本研究提出了一种用于自动化代码库迁移的框架,专注于解决基于SQL的系统迁移挑战。该方法融合了传统软件工程技术,为现代数据库转换提供了一种迭代、可扩展、精确和高效的解决方案。核心在于集成了一个微调的大型语言模型,以解决SQL代码转换中的关键问题,如语法映射、Oracle PL/SQL和PostgreSQL之间的差异以及优化数据库元素(存储过程、触发器、视图和整体数据库逻辑)。该方法在微调和提示工程之间进行权衡,特别关注微调方法,以增强整个数据库迁移需求的适应性和兼容性。实验结果表明,微调起着非常重要的作用。研究采用有针对性的评估方法和计算指标来衡量迭代转换周期的成功率。主要创新包括自动SQL特征检测、半监督错误分析以及在系统迁移工作流程中集成领域专家反馈。该方法显著降低了语法错误率,增强了迁移迭代过程中的特征对齐,并利用数据集抽样来确保持续改进。通过将GAI嵌入到迁移过程中,该框架促进了精确的特征映射、半自动化错误解决和数据驱动的优化循环,从而提高了工作流程效率。

🔬 方法详解

问题定义:论文旨在解决SQL代码库迁移过程中面临的挑战,特别是从Oracle PL/SQL到PostgreSQL的迁移。现有方法通常依赖于手动转换或基于规则的转换工具,这些方法效率低下,容易出错,并且难以处理复杂的数据库逻辑和语法差异。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的代码理解和生成能力,通过微调LLM使其能够自动进行SQL代码的转换和优化。这种方法旨在克服传统方法的局限性,提高迁移的准确性和效率。

技术框架:该框架包含以下主要模块/阶段:1) SQL特征检测:自动识别SQL代码中的关键特征,例如存储过程、触发器和视图。2) LLM微调:使用包含Oracle PL/SQL和PostgreSQL代码对的数据集对LLM进行微调,使其能够学习两种SQL方言之间的映射关系。3) 代码转换:使用微调后的LLM将Oracle PL/SQL代码转换为PostgreSQL代码。4) 半监督错误分析:自动检测转换后的代码中的错误,并利用领域专家的反馈进行修正。5) 迭代优化:通过不断迭代代码转换和错误分析过程,逐步提高迁移的准确性和完整性。

关键创新:该方法最重要的创新点在于将微调的LLM集成到SQL代码迁移过程中。与传统的基于规则的方法相比,LLM能够更好地理解代码的语义,并生成更准确、更符合目标数据库规范的代码。此外,半监督错误分析和迭代优化机制能够不断提高迁移的质量。

关键设计:论文中关键的设计包括:1) 微调数据集的选择:选择高质量的Oracle PL/SQL和PostgreSQL代码对作为微调数据集,以提高LLM的学习效果。2) 损失函数的设计:使用合适的损失函数来训练LLM,例如交叉熵损失函数,以最大化生成正确代码的概率。3) 迭代优化策略:设计有效的迭代优化策略,例如使用领域专家的反馈来指导LLM的训练,以提高迁移的准确性和完整性。

📊 实验亮点

实验结果表明,该方法能够显著降低SQL代码迁移过程中的语法错误率,并增强特征对齐。通过与传统方法对比,该方法在代码转换的准确性和效率方面均有显著提升。此外,半监督错误分析和迭代优化机制能够不断提高迁移的质量,确保迁移后的系统能够正常运行。

🎯 应用场景

该研究成果可应用于各种需要进行数据库迁移的场景,例如企业系统升级、云平台迁移等。通过自动化SQL代码转换,可以显著降低迁移成本和风险,提高迁移效率。未来,该方法有望扩展到其他编程语言和数据库系统,实现更广泛的代码迁移自动化。

📄 摘要(原文)

The study presents the outcomes of research and experimental validation in the domain of automated codebase migration, with a focus on addressing challenges in transitioning SQL-based systems. The proposed method for migration essentially appears as a framework that leverages the best aspects of traditional software engineering techniques and provides an iterative, scalable, precise and efficient solution for modern database transformations. The central piece of the approach is the integration of a fine-tuned Large Language Model to address critical issues in SQL code conversion, such as syntax mapping, resolving discrepancies between Oracle PL/SQL and PostgreSQL, and optimising database elements such as stored procedures, triggers, views, and overall database logic. Thus, the method involves a trade-off between fine-tuning and prompt engineering. Special attention is given to a fine-tuning approach, which enhances the adaptability and compatibility with migration requirements across the entire database. According to the achieved results, fine-tuning plays a very important role. The study employs targeted evaluation methodologies along with computational metrics to measure the success of iterative conversion cycles. Core innovations include automated SQL feature detection, semi-supervised error analysis and integration of Subject Matter Experts feedback within a systematic migration workflow. The methodology achieves significant reductions in Syntax Error Rates, enhances feature alignment throughout migration iterations, and leverages dataset sampling to ensure continual improvement. By embedding GAI into the migration process, the framework facilitates precise feature mapping, semi-automated error resolution, and data-driven optimisation loops, improving workflow efficiency.