ARCTraj: A Dataset and Benchmark of Human Reasoning Trajectories for Abstract Problem Solving

作者: Sejin Kim, Hayan Choi, Seokki Lee, Sundong Kim

分类: cs.AI

发布日期: 2025-11-14 (更新: 2025-11-17)

💡 一句话要点

ARCTraj：用于抽象问题求解的人类推理轨迹数据集与基准

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 抽象推理 人类推理轨迹 数据集 强化学习 马尔可夫决策过程 可解释性 通用人工智能

📋 核心要点

现有ARC研究主要依赖静态输入输出监督，缺乏对人类推理过程时间维度的建模。
ARCTraj通过记录人类在解决ARC任务时的对象级别动作序列，捕捉中间推理步骤。
该数据集包含10000条轨迹，并定义了统一的推理流程，可与多种学习方法集成。

📝 摘要（中文）

本文提出了ARCTraj，一个用于建模人类在抽象和推理语料库（ARC）中复杂视觉任务中的推理过程的数据集和方法框架。尽管ARC激发了对抽象推理的广泛研究，但现有方法大多依赖于静态的输入-输出监督，这限制了对推理如何随时间展开的洞察。ARCTraj通过记录时间排序的、对象级别的动作来弥补这一差距，这些动作捕捉了人类如何迭代地将输入转换为输出，揭示了传统数据集忽略的中间推理步骤。该数据集通过O2ARC Web界面收集，包含约10,000条轨迹，并标注了任务标识符、时间戳和成功标签，涵盖了ARC-AGI-1基准测试中的400个训练任务。此外，它还定义了一个统一的推理流程，包括数据收集、动作抽象、马尔可夫决策过程（MDP）公式化和下游学习，从而能够与强化学习、生成模型和序列建模方法（如PPO、World Models、GFlowNets、Diffusion agents和Decision Transformers）集成。对空间选择、颜色属性和战略收敛的分析突出了人类推理的结构和多样性。总而言之，这些贡献使ARCTraj成为研究类人推理、提高可解释性、对齐性和通用智能的结构化和可解释的基础。

🔬 方法详解

问题定义：论文旨在解决现有抽象推理研究中缺乏对人类推理过程建模的问题。现有方法主要依赖于静态的输入-输出监督，无法洞察人类如何逐步解决抽象问题，导致模型缺乏可解释性和泛化能力。

核心思路：论文的核心思路是通过记录人类解决ARC任务时的动作轨迹，捕捉中间推理步骤，从而更全面地理解人类的推理过程。这种方法将推理过程视为一个动态的过程，而不仅仅是一个静态的映射。

技术框架：ARCTraj的整体框架包含以下几个主要阶段：1) 数据收集：通过O2ARC Web界面收集人类解决ARC任务的动作轨迹数据。2) 动作抽象：将原始动作数据抽象为更高级别的动作表示，以便于后续建模。3) MDP公式化：将推理过程建模为马尔可夫决策过程（MDP），其中状态表示当前任务状态，动作表示人类执行的动作，奖励表示任务是否成功。4) 下游学习：利用收集到的数据和MDP框架，训练各种机器学习模型，如强化学习、生成模型和序列建模方法，以模拟人类的推理过程。

关键创新：该论文的关键创新在于提出了一个用于建模人类推理轨迹的数据集和方法框架。与以往的静态输入-输出监督方法不同，ARCTraj能够捕捉人类推理过程中的中间步骤，从而更全面地理解人类的推理过程。此外，该论文还定义了一个统一的推理流程，可以与多种机器学习模型集成，为研究人类推理提供了一个灵活的平台。

关键设计：在数据收集方面，论文设计了O2ARC Web界面，方便用户进行标注。在动作抽象方面，论文定义了一套高级别的动作表示，例如空间选择和颜色属性。在MDP公式化方面，论文需要仔细设计状态空间、动作空间和奖励函数，以确保能够准确地表示人类的推理过程。在下游学习方面，论文可以尝试不同的机器学习模型，并调整其参数，以获得最佳的性能。

🖼️ 关键图片

📊 实验亮点

ARCTraj数据集包含约10,000条人类推理轨迹，覆盖了ARC-AGI-1基准测试中的400个训练任务。通过对空间选择、颜色属性和战略收敛的分析，论文展示了人类推理的结构和多样性。该数据集和方法框架为研究类人推理提供了一个结构化和可解释的基础，并为提高AI系统的可解释性、对齐性和通用智能提供了新的思路。

🎯 应用场景

ARCTraj的研究成果可应用于开发更具可解释性和泛化能力的AI系统，尤其是在需要抽象推理和问题解决的领域，如机器人、自动化设计、教育等。通过理解人类的推理过程，可以设计出更符合人类认知方式的AI系统，从而提高人机协作效率和用户体验。此外，该数据集还可以用于评估和比较不同AI模型的推理能力。

📄 摘要（原文）

We present ARCTraj, a dataset and methodological framework for modeling human reasoning through complex visual tasks in the Abstraction and Reasoning Corpus (ARC). While ARC has inspired extensive research on abstract reasoning, most existing approaches rely on static input--output supervision, which limits insight into how reasoning unfolds over time. ARCTraj addresses this gap by recording temporally ordered, object-level actions that capture how humans iteratively transform inputs into outputs, revealing intermediate reasoning steps that conventional datasets overlook. Collected via the O2ARC web interface, it contains around 10,000 trajectories annotated with task identifiers, timestamps, and success labels across 400 training tasks from the ARC-AGI-1 benchmark. It further defines a unified reasoning pipeline encompassing data collection, action abstraction, Markov decision process (MDP) formulation, and downstream learning, enabling integration with reinforcement learning, generative modeling, and sequence modeling methods such as PPO, World Models, GFlowNets, Diffusion agents, and Decision Transformers. Analyses of spatial selection, color attribution, and strategic convergence highlight the structure and diversity of human reasoning. Together, these contributions position ARCTraj as a structured and interpretable foundation for studying human-like reasoning, advancing explainability, alignment, and generalizable intelligence.

ARCTraj: A Dataset and Benchmark of Human Reasoning Trajectories for Abstract Problem Solving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理