Touch-R1: Reinforcing Touch Reasoning in MLLMs
作者: Yingxin Lai, Yafei Zhou, Fucai Zhu, Siyu Zhu, Weihao Yuan
分类: cs.CV
发布日期: 2026-05-26
备注: Our code and data will be made public on the https://laiyingxin2.github.io/Projects
💡 一句话要点
Touch-R1:通过触觉强化学习提升多模态大模型中的触觉推理能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 触觉推理 多模态学习 强化学习 触觉感知 机器人操作 物理交互 大语言模型
📋 核心要点
- 现有触觉-语言模型依赖监督或对比学习,难以基于物理证据预测或纠正视觉偏差,触觉推理面临物理属性的序数性和跨传感器分布偏移的挑战。
- 提出Touch-R1,一个基于Qwen2.5-VL-7B的触觉推理MLLM,通过触觉接地的GRPO目标训练,结合序数感知准确性、跨传感器物理一致性等。
- Touch-R1-7B在TouchReason-Bench上显著优于Octopi-13B和GPT-4o,展现了探测、比较和修正等新兴行为,证明了物理接触对推理的有效性。
📝 摘要(中文)
本文提出了一种基于规则的强化学习方法,用于提升多模态模型中的触觉推理能力,该能力在很大程度上尚未被探索。现有的触觉-语言模型主要依赖于监督或对比学习目标,限制了其在物理证据中进行预测或纠正误导性视觉先验的能力。触觉推理引入了两个模态特定的挑战:物理属性的序数性质(例如,硬度、粗糙度)以及光学触觉硬件中固有的跨传感器分布偏移。为此,作者构建了TouchReason-1M,一个包含超过100万个跨四个不同传感器的同步触觉对的大规模多模态数据集,以及TouchReason-Bench,一个用于评估触觉感知和视觉-触觉冲突解决的严格框架。在此基础上,作者提出了Touch-R1,一个基于Qwen2.5-VL-7B的触觉推理MLLM,通过触觉接地的GRPO目标进行训练,该目标结合了序数感知准确性、跨传感器物理一致性、结构化格式控制和输入侧触觉接地目标。实验表明,Touch-R1-7B在TouchReason-Bench上平均优于Octopi-13B 18.4%,优于GPT-4o 24.7%。其结构化推理过程揭示了探测、比较和修正的新兴行为,表明R1风格的推理可以有效地基于物理接触。
🔬 方法详解
问题定义:现有触觉-语言模型在触觉推理方面存在不足,主要体现在无法有效利用触觉信息来修正视觉偏差,并且难以处理触觉数据的特殊性质,如物理属性的序数性和跨传感器分布偏移。这些问题限制了模型在需要精确触觉感知的任务中的应用。
核心思路:论文的核心思路是通过强化学习,特别是触觉接地的GRPO(Grounded Reinforcement Policy Optimization)目标,来训练模型。该方法旨在让模型学习如何利用真实的触觉输入来提升预测的准确性,并且能够处理不同触觉传感器之间的差异。通过奖励那些基于真实触觉输入做出正确判断的行为,模型能够更好地理解和利用触觉信息。
技术框架:Touch-R1的技术框架主要包括以下几个部分:首先,构建大规模多模态数据集TouchReason-1M和评估基准TouchReason-Bench。其次,基于Qwen2.5-VL-7B构建触觉推理MLLM。然后,使用触觉接地的GRPO目标进行训练,该目标结合了序数感知准确性、跨传感器物理一致性、结构化格式控制和输入侧触觉接地目标。最后,通过实验验证Touch-R1在触觉推理任务上的性能。
关键创新:论文的关键创新在于提出了触觉接地的GRPO目标,该目标能够有效地将触觉信息融入到模型的推理过程中。传统的强化学习方法可能无法很好地处理触觉数据的特殊性质,而GRPO目标通过引入序数感知准确性和跨传感器物理一致性等约束,使得模型能够更好地理解和利用触觉信息。此外,输入侧触觉接地目标进一步强化了模型对触觉输入的依赖。
关键设计:GRPO目标是关键设计之一,它包含多个组成部分。序数感知准确性确保模型能够正确理解物理属性的序数关系(例如,硬度等级)。跨传感器物理一致性要求模型在不同触觉传感器之间保持预测的一致性。结构化格式控制确保模型输出的推理过程是可解释的。输入侧触觉接地目标通过对比真实触觉输入和经过扰动的触觉输入,来鼓励模型利用真实的触觉信息。
🖼️ 关键图片
📊 实验亮点
Touch-R1-7B在TouchReason-Bench上取得了显著的性能提升,平均优于Octopi-13B 18.4%,优于GPT-4o 24.7%。实验结果表明,通过触觉接地的GRPO目标训练,模型能够有效地利用触觉信息进行推理,并且能够处理不同触觉传感器之间的差异。此外,模型还展现了探测、比较和修正等新兴行为,证明了物理接触对推理的有效性。
🎯 应用场景
该研究成果可应用于机器人操作、智能制造、医疗诊断等领域。例如,机器人可以利用触觉信息进行更精确的物体抓取和操作;在智能制造中,可以通过触觉感知进行质量检测和故障诊断;在医疗领域,可以辅助医生进行触诊等操作,提高诊断的准确性。未来,该技术有望推动触觉感知在各个领域的广泛应用。
📄 摘要(原文)
While rule-based reinforcement learning has recently catalyzed explicit reasoning in multimodal models, tactile reasoning remains largely underexplored. Existing tactile-language models primarily rely on supervised or contrastive objectives, which limits their capacity to ground predictions in physical evidence or rectify misleading visual priors. Tactile reasoning introduces two modality-specific challenges: the ordinal nature of physical attributes (e.g., hardness, roughness) and the cross-sensor distribution shifts inherent in optical tactile hardware. In this work, we introduce TouchReason-1M, a large-scale multimodal dataset comprising over 1M synchronized tactile pairs across four distinct sensors, and TouchReason-Bench, a rigorous framework for evaluating tactile perception and visual-tactile conflict resolution. Building upon these, we propose Touch-R1, a tactile reasoning MLLM based on Qwen2.5-VL-7B. Touch-R1 is trained via a tactile-grounded GRPO objective that combines ordinal-aware accuracy, cross-sensor physical consistency, structured-format control, and an input-side tactile grounding objective. Specifically, the tactile-use reward assigns credit only when authentic tactile inputs yield superior correctness relative to counterfactual controls where the tactile stream is removed, shuffled, or noise-masked. On TouchReason-Bench, Touch-R1-7B outperforms Octopi-13B by 18.4\% and GPT-4o by 24.7\% on average. Its structured reasoning traces reveal emergent behaviors of probing, comparison, and revision, demonstrating that R1-style reasoning can be effectively grounded in physical contact.