CSPO: Alleviating Reward Ambiguity for Structured Table-to-LaTeX Generation
作者: Yunfan Yang, Cuiling Lan, Jitao Sang, Yan Lu
分类: cs.AI
发布日期: 2026-04-13
备注: Accepted by ACL2026 (main conference)
💡 一句话要点
提出CSPO框架,缓解结构化表格转LaTeX生成中的奖励模糊问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 表格识别 LaTeX生成 多模态学习 强化学习 奖励塑造
📋 核心要点
- 现有MLLM在将表格图像转换为LaTeX代码时,难以保持结构、样式和内容的完整性,面临保真度挑战。
- CSPO框架通过为LaTeX表格的结构、样式和内容组件分配特定奖励,实现组件级别的优化,缓解奖励模糊问题。
- 实验结果表明,CSPO在结构化表格转LaTeX生成任务中表现出色,验证了组件特定优化的有效性。
📝 摘要(中文)
表格包含丰富的结构化信息,但当以图像形式存储时,其内容被“锁定”在像素中。将表格图像转换为LaTeX代码可以实现忠实的数字化和重用,但当前的多模态大型语言模型(MLLM)通常无法保持结构、样式或内容的保真度。传统的强化学习(RL)后训练通常依赖于单一的聚合奖励,导致奖励模糊,混淆了多个行为方面,阻碍了有效的优化。我们提出了组件特定策略优化(CSPO),这是一个RL框架,它解耦了LaTeX表格组件(结构、样式和内容)的优化。特别是,CSPO分配组件特定的奖励,并且仅通过与其组件相关的token反向传播每个信号,从而缓解奖励模糊并实现有针对性的组件式优化。为了全面评估性能,我们引入了一组分层评估指标。大量的实验证明了CSPO的有效性,强调了组件特定优化对于可靠的结构化生成的重要性。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLMs)在将表格图像转换为LaTeX代码时,无法有效保持表格的结构、样式和内容保真度的问题。现有方法通常采用强化学习进行后训练,但依赖于单一的聚合奖励,导致奖励模糊,难以针对性地优化不同方面的性能。
核心思路:论文的核心思路是将表格的生成过程分解为结构、样式和内容三个组件,并为每个组件设计特定的奖励函数。通过组件特定的奖励信号,引导模型针对性地学习每个组件的生成策略,从而缓解奖励模糊问题,提高整体生成质量。
技术框架:CSPO框架主要包含以下几个模块:1) MLLM:用于生成LaTeX代码的基线模型。2) 组件特定奖励函数:分别针对结构、样式和内容三个组件设计奖励函数,用于评估生成代码在各个方面的质量。3) 策略优化模块:使用强化学习算法(如PPO)优化MLLM的生成策略,其中奖励信号来自组件特定奖励函数。在反向传播时,每个组件的奖励信号只通过与该组件相关的token进行传播,实现组件级别的优化。
关键创新:CSPO的关键创新在于提出了组件特定的奖励和反向传播机制。与传统的单一聚合奖励方法相比,CSPO能够更精确地评估和优化生成代码在不同方面的性能,从而缓解奖励模糊问题,提高生成质量。此外,论文还设计了一套分层评估指标,用于全面评估生成代码的结构、样式和内容保真度。
关键设计:论文中,结构奖励旨在评估生成代码的表格结构是否正确,例如行数、列数、单元格合并等。样式奖励旨在评估生成代码的样式是否与原始表格一致,例如字体、颜色、对齐方式等。内容奖励旨在评估生成代码的内容是否与原始表格一致,例如文本、数字、公式等。具体奖励函数的设计可能涉及编辑距离、相似度度量等技术。策略优化采用Proximal Policy Optimization (PPO)算法,并对奖励信号进行归一化处理,以提高训练稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,CSPO框架在结构化表格转LaTeX生成任务中取得了显著的性能提升。与基线模型相比,CSPO在结构、样式和内容保真度方面均有明显改善。具体性能数据未知,但论文强调了组件特定优化对于可靠结构化生成的重要性。
🎯 应用场景
该研究成果可应用于文档数字化、信息提取、数据分析等领域。通过将表格图像转换为可编辑的LaTeX代码,可以方便地对表格数据进行处理和分析,提高工作效率。此外,该方法还可以用于构建自动化的文档生成系统,例如自动生成学术论文、技术报告等。
📄 摘要(原文)
Tables contain rich structured information, yet when stored as images their contents remain "locked" within pixels. Converting table images into LaTeX code enables faithful digitization and reuse, but current multimodal large language models (MLLMs) often fail to preserve structural, style, or content fidelity. Conventional post-training with reinforcement learning (RL) typically relies on a single aggregated reward, leading to reward ambiguity that conflates multiple behavioral aspects and hinders effective optimization. We propose Component-Specific Policy Optimization (CSPO), an RL framework that disentangles optimization across LaTeX tables components-structure, style, and content. In particular, CSPO assigns component-specific rewards and backpropagates each signal only through the tokens relevant to its component, alleviating reward ambiguity and enabling targeted component-wise optimization. To comprehensively assess performance, we introduce a set of hierarchical evaluation metrics. Extensive experiments demonstrate the effectiveness of CSPO, underscoring the importance of component-specific optimization for reliable structured generation.