On Path to Multimodal Historical Reasoning: HistBench and HistAgent

作者: Jiahao Qiu, Fulian Xiao, Yimin Wang, Yuchen Mao, Yijia Chen, Xinzhe Juan, Shu Zhang, Siran Wang, Xuan Qi, Tongcheng Zhang, Zixin Yao, Jiacheng Guo, Yifu Lu, Charles Argon, Jundi Cui, Daixin Chen, Junran Zhou, Shuyao Zhou, Zhanpeng Zhou, Ling Yang, Shilong Liu, Hongru Wang, Kaixuan Huang, Xun Jiang, Yuming Cao, Yue Chen, Yunfei Chen, Zhengyi Chen, Ruowei Dai, Mengqiu Deng, Jiye Fu, Yunting Gu, Zijie Guan, Zirui Huang, Xiaoyan Ji, Yumeng Jiang, Delong Kong, Haolong Li, Jiaqi Li, Ruipeng Li, Tianze Li, Zhuoran Li, Haixia Lian, Mengyue Lin, Xudong Liu, Jiayi Lu, Jinghan Lu, Wanyu Luo, Ziyue Luo, Zihao Pu, Zhi Qiao, Ruihuan Ren, Liang Wan, Ruixiang Wang, Tianhui Wang, Yang Wang, Zeyu Wang, Zihua Wang, Yujia Wu, Zhaoyi Wu, Hao Xin, Weiao Xing, Ruojun Xiong, Weijie Xu, Yao Shu, Yao Xiao, Xiaorui Yang, Yuchen Yang, Nan Yi, Jiadong Yu, Yangyuxuan Yu, Huiting Zeng, Danni Zhang, Yunjie Zhang, Zhaoyu Zhang, Zhiheng Zhang, Xiaofeng Zheng, Peirong Zhou, Linyan Zhong, Xiaoyin Zong, Ying Zhao, Zhenxin Chen, Lin Ding, Xiaoyu Gao, Bingbing Gong, Yichao Li, Yang Liao, Guang Ma, Tianyuan Ma, Xinrui Sun, Tianyi Wang, Han Xia, Ruobing Xian, Gen Ye, Tengfei Yu, Wentao Zhang, Yuxi Wang, Xi Gao, Mengdi Wang

分类: cs.AI, cs.CL

发布日期: 2025-05-26 (更新: 2025-06-19)

备注: 17 pages, 7 figures

💡 一句话要点

提出HistBench历史推理基准和HistAgent，提升AI在历史领域的多模态理解能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 历史推理 多模态学习 大型语言模型 领域特定智能体 历史基准测试

📋 核心要点

现有通用LLM在历史领域推理能力不足，无法有效处理多模态历史资料，缺乏领域知识。
提出HistAgent，一个专门为历史推理设计的智能体，集成了OCR、翻译、档案搜索和图像理解等工具。
HistAgent在HistBench上显著优于通用LLM，证明了领域特定智能体在历史推理方面的优势。

📝 摘要（中文）

大型语言模型（LLMs）在各个领域取得了显著进展，但在人文科学，特别是历史领域的能力仍未被充分探索。历史推理对AI提出了独特的挑战，包括多模态来源解释、时间推理和跨语言分析。虽然通用智能体在许多现有基准测试中表现良好，但它们缺乏与历史材料和问题互动的领域特定知识。为了解决这个问题，我们引入了HistBench，这是一个新的基准，包含414个高质量问题，旨在评估AI的历史推理能力，由40多位专家贡献者编写。任务涵盖了广泛的历史问题，从基于原始资料的事实检索到对手稿和图像的解释性分析，再到涉及考古学、语言学或文化史的跨学科挑战。此外，基准数据集跨越29种古代和现代语言，涵盖了广泛的历史时期和世界区域。由于LLM和其他智能体在HistBench上的表现不佳，我们进一步提出了HistAgent，这是一个历史特定智能体，配备了精心设计的工具，用于历史领域的OCR、翻译、档案搜索和图像理解。在HistBench上，基于GPT-4o的HistAgent实现了27.54%的pass@1和36.47%的pass@2的准确率，显著优于具有在线搜索的LLM和通用智能体，包括GPT-4o（18.60%）、DeepSeek-R1（14.49%）和Open Deep Research-smolagents（20.29% pass@1和25.12% pass@2）。这些结果突出了现有LLM和通用智能体的局限性，并证明了HistAgent在历史推理方面的优势。

🔬 方法详解

问题定义：现有的大型语言模型和通用智能体在处理历史相关的任务时，面临着多方面的挑战。它们难以有效地理解和推理多模态的历史资料，例如古代文献、图像和文物。此外，这些模型缺乏历史领域的专业知识，无法准确地进行时间推理、跨语言分析和文化背景理解。因此，需要一种专门为历史推理设计的智能体，能够更好地处理这些复杂的问题。

核心思路：论文的核心思路是构建一个领域特定的智能体HistAgent，该智能体配备了专门为历史研究设计的工具。通过集成OCR、翻译、档案搜索和图像理解等功能，HistAgent能够更有效地处理多模态历史资料，并进行更准确的历史推理。这种方法的核心在于利用领域知识来弥补通用模型在特定领域的不足。

技术框架：HistAgent的技术框架主要包括以下几个模块：1) OCR模块，用于识别和提取古代文献中的文本信息；2) 翻译模块，用于将不同语言的历史资料翻译成统一的语言；3) 档案搜索模块，用于在历史档案数据库中检索相关信息；4) 图像理解模块，用于分析历史图像和文物，提取相关特征。这些模块协同工作，为HistAgent提供全面的历史信息，从而支持其进行更准确的历史推理。

关键创新：该论文最重要的技术创新点在于提出了HistAgent，一个专门为历史推理设计的智能体。与现有的通用模型相比，HistAgent具有更强的领域适应性和更高的推理准确率。通过集成OCR、翻译、档案搜索和图像理解等工具，HistAgent能够更有效地处理多模态历史资料，并进行更准确的历史推理。此外，HistBench基准的提出也为评估AI在历史推理方面的能力提供了一个标准化的平台。

关键设计：HistAgent的关键设计包括：1) 精心选择和集成适合历史资料处理的OCR、翻译、档案搜索和图像理解工具；2) 设计合理的模块间协作机制，确保各个模块能够协同工作，为历史推理提供全面的信息；3) 使用GPT-4o作为HistAgent的基础模型，并对其进行微调，以提高其在历史领域的推理能力。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

HistAgent在HistBench基准测试中取得了显著的性能提升。基于GPT-4o的HistAgent实现了27.54%的pass@1和36.47%的pass@2的准确率，显著优于通用LLM，包括GPT-4o（18.60%）、DeepSeek-R1（14.49%）和Open Deep Research-smolagents（20.29% pass@1和25.12% pass@2）。这些结果表明，领域特定的智能体在历史推理方面具有明显的优势。

🎯 应用场景

该研究成果可应用于历史研究、教育和文化遗产保护等领域。HistAgent可以帮助历史学家更高效地分析和理解历史资料，为历史教育提供更丰富的资源，并为文化遗产的数字化保护提供技术支持。未来，该技术有望应用于构建智能博物馆、虚拟历史体验等场景。

📄 摘要（原文）

Recent advances in large language models (LLMs) have led to remarkable progress across domains, yet their capabilities in the humanities, particularly history, remain underexplored. Historical reasoning poses unique challenges for AI, involving multimodal source interpretation, temporal inference, and cross-linguistic analysis. While general-purpose agents perform well on many existing benchmarks, they lack the domain-specific expertise required to engage with historical materials and questions. To address this gap, we introduce HistBench, a new benchmark of 414 high-quality questions designed to evaluate AI's capacity for historical reasoning and authored by more than 40 expert contributors. The tasks span a wide range of historical problems-from factual retrieval based on primary sources to interpretive analysis of manuscripts and images, to interdisciplinary challenges involving archaeology, linguistics, or cultural history. Furthermore, the benchmark dataset spans 29 ancient and modern languages and covers a wide range of historical periods and world regions. Finding the poor performance of LLMs and other agents on HistBench, we further present HistAgent, a history-specific agent equipped with carefully designed tools for OCR, translation, archival search, and image understanding in History. On HistBench, HistAgent based on GPT-4o achieves an accuracy of 27.54% pass@1 and 36.47% pass@2, significantly outperforming LLMs with online search and generalist agents, including GPT-4o (18.60%), DeepSeek-R1(14.49%) and Open Deep Research-smolagents(20.29% pass@1 and 25.12% pass@2). These results highlight the limitations of existing LLMs and generalist agents and demonstrate the advantages of HistAgent for historical reasoning.

On Path to Multimodal Historical Reasoning: HistBench and HistAgent

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理