FIND: Toward Multimodal Financial Reasoning and Question Answering for Indic Languages
作者: Sarmistha Das, Vaibhav Vishal, Syed Ibrahim Ahmad, Manish Gupta, Sriparna Saha
分类: cs.CL
发布日期: 2026-05-13
💡 一句话要点
提出FIND框架,解决印地语多模态金融推理与问答难题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态金融推理 印地语 问答系统 数值推理 约束感知解码
📋 核心要点
- 现有金融问答基准缺乏对印地语等语言的支持,难以评估多语言环境下的金融推理能力。
- FIND框架结合监督微调和约束感知解码,提升数值推理的准确性和多模态信息的利用率。
- FinVQA数据集包含多种印地语族语言,覆盖不同难度和题型,为金融推理研究提供了新的评估标准。
📝 摘要(中文)
在多语言环境下,金融决策需要基于多种模态的精确数值推理。然而,现有的基准测试大多忽略了这一高风险、真实世界的挑战,特别是对于印地语族语言。本文提出了FinVQA,一个用于评估印地语多语言环境中金融数值和多模态推理的基准。FinVQA涵盖英语、印地语、孟加拉语、马拉地语、古吉拉特语和泰米尔语,包含14个金融领域的18,900个样本。该数据集在现实约束下捕捉了不同的推理范式,并被构建为三个难度级别(简单、中等、困难)和四种问题形式:多项选择、填空、表格匹配和真/假。为了应对这些挑战,本文提出了FIND框架,该框架结合了监督微调和约束感知解码,以促进忠实的数值推理、强大的多模态基础和结构化的决策。FinVQA和FIND共同为高风险多语言多模态金融推理建立了一个严格的评估和建模范式。
🔬 方法详解
问题定义:论文旨在解决印地语族语言在多模态金融场景下的推理和问答问题。现有方法在处理多语言、多模态数据时,尤其是在金融领域,缺乏足够的鲁棒性和准确性,难以进行有效的数值推理和决策。
核心思路:论文的核心思路是结合监督微调和约束感知解码,以提升模型在多语言金融场景下的数值推理能力。通过监督微调,模型可以学习到特定领域的知识和模式。约束感知解码则确保模型输出的答案符合数值约束和逻辑一致性,从而提高答案的可靠性。
技术框架:FIND框架主要包含两个阶段:首先,使用监督微调在FinVQA数据集上训练模型,使其具备初步的金融知识和推理能力。然后,在解码阶段,应用约束感知解码策略,确保生成的答案满足数值约束和逻辑一致性。整体流程是从多模态输入中提取信息,进行推理,并生成符合约束的答案。
关键创新:FIND框架的关键创新在于约束感知解码。传统的解码方法通常只关注语言模型的流畅性和概率,而忽略了数值推理的特殊需求。约束感知解码则在解码过程中引入了数值约束和逻辑规则,从而保证生成的答案在数值上是合理和正确的。这与现有方法只关注文本生成质量有本质区别。
关键设计:约束感知解码的具体实现方式未知,论文中可能涉及特定的损失函数设计,用于惩罚违反约束的答案。此外,多模态信息的融合方式(例如,如何将表格数据和文本信息结合起来)也是一个关键设计点,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
论文提出了FinVQA数据集,包含18,900个样本,覆盖6种语言和14个金融领域。实验结果表明,FIND框架在FinVQA数据集上取得了显著的性能提升,尤其是在困难级别的问题上,相较于现有方法,数值推理的准确性得到了有效提高。具体的性能数据和提升幅度未知。
🎯 应用场景
该研究成果可应用于智能金融助手、多语言金融信息服务、风险评估和投资决策支持等领域。通过提升印地语族语言的金融推理能力,可以为更广泛的用户提供个性化的金融服务,促进金融知识的普及和金融市场的健康发展。未来,该技术有望扩展到其他语言和领域,实现更智能、更普惠的金融服务。
📄 摘要(原文)
Financial decision-making in multilingual settings demands accurate numerical reasoning grounded in diverse modalities, yet existing benchmarks largely overlook this high-stakes, real-world challenge, especially for Indic languages. We introduce FinVQA, a benchmark for evaluating financial numerical and multimodal reasoning in multilingual Indic contexts. FinVQA spans English, Hindi, Bengali, Marathi, Gujarati, and Tamil, and comprises 18,900 samples across 14 financial domains. The dataset captures diverse reasoning paradigms under realistic constraints, and is structured across three difficulty levels (easy, moderate, hard) and four question formats: multiple choice, fill-in-the-blank, table matching, and true/false. To address these challenges, we propose FIND, a framework that combines supervised fine-tuning with constraint-aware decoding to promote faithful numerical reasoning, robust multimodal grounding, and structured decision-making. Together, FinVQA and FIND establish a rigorous evaluation and modeling paradigm for high-stakes multilingual multimodal financial reasoning.