ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics

作者: Ziyu Wei, Luting Wang, Chen Gao, Li Wen, Si Liu

分类: cs.RO, cs.AI, cs.CV

发布日期: 2026-05-18

备注: Accepted in ICML 2026

🔗 代码/项目: PROJECT_PAGE

💡 一句话要点

ManiSoft：面向软体连续机器人的视觉-语言操控基准

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 软体机器人 视觉-语言操控 基准测试 强化学习 机器人仿真

📋 核心要点

现有视觉-语言操控研究主要针对刚性机械臂，难以适应复杂环境，软体臂虽有潜力，但本体感知和控制是挑战。
ManiSoft基准通过定制模拟器，结合软体动力学和接触交互，定义了四个任务，涵盖末端执行器协调和避障等。
实验表明，现有策略在干净场景表现尚可，但在随机化场景下性能显著下降，主要问题在于视觉本体感知和可变形性利用不足。

📝 摘要（中文）

现有视觉-语言操控研究主要集中于刚性机械臂，其固定形态限制了在杂乱或狭窄空间中的适应性。软体机械臂因其可变形性提供了一种有吸引力的替代方案，但面临着诸如不可靠的本体感知和分布式底层驱动等挑战。为了研究这些挑战，我们推出了ManiSoft，这是一个用于软臂视觉-语言操控的基准。ManiSoft 具有一个定制的模拟器，该模拟器通过弹性力约束将逼真的软体动力学与富含接触的交互相结合。在此基础上，ManiSoft 定义了四个任务，每个任务都突出了可变形控制的不同方面，从基本的末端执行器协调到避障。为了支持策略训练和评估，ManiSoft 包括一个自动化的流程，该流程生成 6,300 个不同的场景和相应的专家轨迹。为了大规模生成高质量的轨迹，我们首先采用高级规划器将每个任务分解为一系列路标点，然后采用低级强化学习策略来生成扭矩命令以跟踪路标点。对三个代表性策略模型进行基准测试表明，在干净的场景中结果相对有希望，但在随机化下性能显着下降。可视化分析表明，失败主要源于对本体感受状态的不准确的视觉估计以及对可变形性在自适应避障方面的利用不足。我们预计 ManiSoft 将成为一个有价值的试验台，弥合视觉-语言操控中刚性和软臂之间的差距。我们的代码和数据集已在 https://buaa-colalab.github.io/ManiSoft 上发布。

🔬 方法详解

问题定义：现有视觉-语言操控方法主要集中于刚性机械臂，无法很好地适应复杂或狭窄的环境。软体机械臂虽然具有更好的适应性，但其本体感知困难，难以进行精确控制，并且缺乏相应的基准测试环境。

核心思路：论文的核心思路是构建一个专门针对软体机械臂的视觉-语言操控基准测试环境ManiSoft。通过提供逼真的软体动力学模拟、多样化的任务场景和专家轨迹，促进软体机械臂在视觉-语言操控方面的研究。

技术框架：ManiSoft包含以下主要模块：1) 定制模拟器：模拟器结合了逼真的软体动力学和富含接触的交互，通过弹性力约束实现。2) 任务定义：定义了四个任务，涵盖了从基本的末端执行器协调到避障等可变形控制的不同方面。3) 数据生成：自动化的流程生成了6,300个不同的场景和对应的专家轨迹。4) 策略训练与评估：提供了用于策略训练和评估的工具和基准。

关键创新：ManiSoft的关键创新在于：1) 首次提出了一个专门针对软体机械臂的视觉-语言操控基准。2) 构建了一个逼真的软体动力学模拟器，能够模拟软体机械臂与环境的复杂交互。3) 提供了大量多样化的任务场景和专家轨迹，方便研究人员进行策略训练和评估。

关键设计：为了生成高质量的专家轨迹，论文采用了两阶段方法：1) 高级规划器：将每个任务分解为一系列路标点。2) 低级强化学习策略：生成扭矩命令以跟踪路标点。在模拟器中，使用了弹性力约束来模拟软体机械臂与环境的接触交互。此外，论文还提供了用于策略训练和评估的工具，包括性能指标和可视化分析。

🖼️ 关键图片

📊 实验亮点

论文对三个代表性策略模型进行了基准测试，结果表明，在干净的场景中，策略模型表现相对较好，但在随机化场景下，性能显著下降。可视化分析表明，性能瓶颈主要在于视觉本体感知的不准确以及对软体臂可变形性的利用不足。这些结果为未来的研究方向提供了重要的启示。

🎯 应用场景

该研究成果可应用于医疗手术、灾难救援、工业制造等领域。软体机械臂凭借其柔顺性和适应性，能够在狭窄、复杂或危险的环境中执行任务，例如在人体内部进行微创手术，在倒塌的建筑物中搜寻幸存者，或在生产线上进行精细装配。ManiSoft基准的提出将加速软体机器人视觉-语言操控技术的发展，推动其在实际场景中的应用。

📄 摘要（原文）

Most existing vision-language manipulation research targets rigid robotic arms, whose fixed morphology limits adaptability in cluttered or confined spaces. Soft robotic arms offer an appealing alternative due to their deformability, but confront challenges such as unreliable proprioception and distributed low-level actuation. To investigate these challenges, we introduce \ManiSoft, a benchmark for vision-language manipulation with soft arms. ManiSoft features a tailored simulator that couples realistic soft-body dynamics with contact-rich interactions via an elastic force constraint. On this basis, ManiSoft defines four tasks, each highlighting distinct aspects of deformable control, from basic end-effector coordination to obstacle avoidance. To support policy training and evaluation, \ManiSoft{} includes an automated pipeline that generates $6{,}300$ diverse scenes and corresponding expert trajectories. To produce high-quality trajectories at scale, we first employ a high-level planner to decompose each task into a sequence of waypoints, followed by a low-level reinforcement learning policy that generates torque commands to track waypoints. Benchmarking three representative policy models shows relatively promising results in clean scenes but substantial performance drop under randomization. Visualization analysis indicates that failures stem primarily from inaccurate visual estimation of proprioceptive state and limited exploitation of deformability for adaptive obstacle avoiding. We anticipate ManiSoft to serve as a valuable testbed, bridging the gap between rigid and soft arms in the context of vision-language manipulation. Out codes and datasets are released at https://buaa-colalab.github.io/ManiSoft.

ManiSoft: Towards Vision-Language Manipulation for Soft Continuum Robotics

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理