LILAC: Language-Conditioned Object-Centric Optical Flow for Open-Loop Trajectory Generation
作者: Motonari Kambara, Koki Seno, Tomoya Kaichi, Yanan Wang, Komei Sugiura
分类: cs.RO
发布日期: 2026-03-26
备注: Accepted to IEEE RA-L
💡 一句话要点
提出LILAC,通过语言条件光流生成实现开放式轨迹生成,用于机器人操作。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 机器人操作 语言条件控制 光流生成 轨迹生成 视觉语言模型 跨模态学习
📋 核心要点
- 现有方法难以从图像和自然语言指令中生成准确的物体操作轨迹,缺乏有效的指令-流对齐机制。
- LILAC通过生成与语言指令对齐的光流,并将其转换为机械臂轨迹,实现了语言条件下的机器人操作。
- 实验结果表明,LILAC在光流质量和物理对象操作任务成功率方面均优于现有方法。
📝 摘要(中文)
本文提出了一种基于光流轨迹生成的语言条件机器人操作方法。该方法能够在人类和网络视频中的物体操作数据上进行训练,并且只需要极少的特定于机器人的数据。这项任务极具挑战性,因为从操作前的图像和自然语言指令中生成物体轨迹需要适当的指令-流对齐。为了应对这一挑战,我们提出了基于流的语言指令引导的开放式循环动作生成器(LILAC)。这种基于流的视觉-语言-动作模型(VLA)从RGB图像和自然语言指令生成以物体为中心的2D光流,并将光流转换为6自由度的机械臂轨迹。LILAC包含两个关键组件:语义对齐损失,它加强了语言条件以生成指令对齐的光流;以及提示条件跨模态适配器,它将学习到的视觉提示与图像和文本特征对齐,从而为光流生成提供丰富的线索。实验表明,我们的方法在多个基准测试中优于现有的光流生成方法。此外,在使用自由形式指令的物理对象操作实验中,LILAC表现出比现有方法更高的任务成功率。
🔬 方法详解
问题定义:现有方法在语言条件机器人操作中,难以将自然语言指令与物体操作轨迹有效对齐,导致生成的轨迹质量不高,任务成功率较低。尤其是在开放式场景下,缺乏足够的特定机器人数据进行训练,使得问题更加突出。
核心思路:LILAC的核心思路是利用光流作为中间表示,将视觉信息和语言指令结合起来,生成以物体为中心的动作轨迹。通过学习人类和网络视频中的操作数据,并结合少量的机器人数据,实现泛化能力更强的轨迹生成。
技术框架:LILAC是一个基于流的视觉-语言-动作模型(VLA),主要包含以下模块:1) 图像编码器:提取输入RGB图像的视觉特征;2) 文本编码器:提取自然语言指令的文本特征;3) 提示条件跨模态适配器:将学习到的视觉提示与图像和文本特征对齐;4) 光流生成器:根据图像和文本特征生成以物体为中心的2D光流;5) 轨迹转换器:将光流转换为6自由度的机械臂轨迹。
关键创新:LILAC的关键创新在于两个方面:一是语义对齐损失,它通过约束生成的光流与语言指令在语义空间中的一致性,从而加强了语言条件;二是提示条件跨模态适配器,它利用视觉提示来增强图像和文本特征的表达能力,为光流生成提供更丰富的线索。
关键设计:语义对齐损失通过计算生成的光流特征和语言指令特征之间的余弦相似度来实现,目标是最大化两者之间的相似度。提示条件跨模态适配器采用Transformer结构,将学习到的视觉提示作为query,图像和文本特征作为key和value,进行跨模态融合。光流生成器采用FlowNet结构,将融合后的特征作为输入,生成光流场。轨迹转换器将光流场转换为机械臂的末端执行器位姿变化,从而生成6自由度的轨迹。
🖼️ 关键图片
📊 实验亮点
LILAC在多个基准测试中优于现有的光流生成方法,例如在生成的流质量方面取得了显著提升。在物理对象操作实验中,LILAC的任务成功率明显高于现有方法,证明了其在实际应用中的有效性。具体提升幅度在论文中给出。
🎯 应用场景
LILAC可应用于各种机器人操作任务,例如家庭服务机器人、工业自动化机器人等。通过自然语言指令,用户可以轻松地控制机器人完成复杂的物体操作任务,而无需编写复杂的程序。该研究有助于提高机器人的智能化水平和人机交互的自然性。
📄 摘要(原文)
We address language-conditioned robotic manipulation using flow-based trajectory generation, which enables training on human and web videos of object manipulation and requires only minimal embodiment-specific data. This task is challenging, as object trajectory generation from pre-manipulation images and natural language instructions requires appropriate instruction-flow alignment. To tackle this challenge, we propose the flow-based Language Instruction-guided open-Loop ACtion generator (LILAC). This flow-based Vision-Language-Action model (VLA) generates object-centric 2D optical flow from an RGB image and a natural language instruction, and converts the flow into a 6-DoF manipulator trajectory. LILAC incorporates two key components: Semantic Alignment Loss, which strengthens language conditioning to generate instruction-aligned optical flow, and Prompt-Conditioned Cross-Modal Adapter, which aligns learned visual prompts with image and text features to provide rich cues for flow generation. Experimentally, our method outperformed existing approaches in generated flow quality across multiple benchmarks. Furthermore, in physical object manipulation experiments using free-form instructions, LILAC demonstrated a superior task success rate compared to existing methods. The project page is available at https://lilac-75srg.kinsta.page/.