自然语言作为人机交互主要媒介,存在空间精度不足、在安静场所使用受限等问题。为此,我们引入机器人视觉指令(RoVI)这一全新范式,以对象为中心的手绘符号引导机器人任务,利用多种元素编码时空信息。为使机器人更好地理解 RoVI 并基于其生成精确动作,我们提出视觉指令实体化工作流程(VIEW),借助视觉语言模型解释 RoVI,提取关键点解码约束并生成三维动作。我们还整理了一个包含15000 个实例的专用数据集微调小型视觉语言模型,便于边缘部署。该方法经 11 项新任务验证,泛化能力强,VIEW 在涉及多步动作、干扰和轨迹跟踪要求的真实世界未知任务场景中,成功率达到 87.5%,代码和数据集即将发布。
自然语言虽在人机交互中直观便捷,但借助大语言模型将其转换为机器人动作时存在挑战,如描述物体空间细节困难,表达空间需求易模糊冗长,且在某些公共场所语音交流不适宜。视觉模态能更直接精确传达时空信息,但目标图像输入与用户操作顺序相悖,轨迹绘制对用户有挑战、可读性低,实际应用不友好。
为解决这些局限,我们提出一种新的通信范式:机器人视觉指令(RoVI),如图 1 左侧所示。这是一种手绘草图指令方法,是以对象为中心的表示方式,利用二维符号语言来指挥三维实体操作。该范式为自然语言指令提供了一种直观、简洁且无声的替代方案。其基本元素包括箭头、圆圈和各种颜色,用于表示不同的动作时间顺序,数字则用于标记双臂系统中的不同实体。箭头指示轨迹和方向,圆圈表示可操作位置,用于在杂乱环境中识别目标物体。颜色清晰地传达时间顺序。通过整合这些元素,RoVI 将一系列三维坐标压缩成人类可理解的二维视觉语言,从而在用户友好性、可解释性和时空对齐方面实现了最佳平衡,如图 2 左侧所示。
为了更好地理解 RoVI 并用于指导机器人操作,我们引入视觉指令实体化工作流程(VIEW)。这是一个将二维 RoVI 指令转换为机器人操作的三维动作序列的流程,借助视觉语言模型转换为语言响应和 Python 代码函数,分解任务为单步子任务,提出关键点模块提取关键点作为约束,基于关键点策略指导机器人执行任务 。
除了上述框架,我们开发了一个包含 15000 个训练实例的数据集,使模型能够通过参数高效微调(PEFT)学习 RoVI 能力。通过上述设计,我们的方法在真实世界和模拟环境中的各种未知任务中均表现出色,展现出强大的泛化性和鲁棒性。与基于语言的策略相比,我们的方法在杂乱环境、多步操作和轨迹跟踪任务中性能
本文的主要贡献如下:
提出一种新颖的人机交互范式:RoVI。它采用手绘符号表示作为机器人指令,在任务定义中传达更精确的时空信息。
设计了一个流程 VIEW(视觉指令实体化工作流程),以实现基于 RoVI 的操作任务。
开发了一个开源数据集,使模型能够学习 RoVI 能力。通过该数据集训练的轻量级模型表明,视觉语言模型能够通过最少的计算资源和简单的微调学习这一能力。
机器人视觉指令设计
我们介绍 RoVI 的范式设计,它由两种视觉基元组成:箭头和圆圈。所有简单或复杂的任务都被分解为三个以对象为中心的动作:从 A 移动到 B(由箭头表示)、旋转对象(一个表示可操作区域的圆圈,搭配一个表示旋转角度的箭头)以及拿起 / 选择(由圆圈表示)。
剖析箭头
我们使用二维箭头表示机器人动作的轨迹和时间顺序。一个箭头被分解为三个部分:尾部(起点)、箭身(路径点)和头部(终点)。起点标记物体上的抓取位置,终点表示动作的目标。中间路径点捕捉运动路径,形成一个有序集合:
其中是由关键点模块提取的二维坐标。
剖析圆圈
圆圈突出显示物体上的关键交互区域。中心点代表可操作中心,可用于各种任务:作为抓取点、旋转轴点,或作为诸如按下按钮等动作的施力点。
绘制设置
RoVI 可直接使用手写笔和绘图软件在平板电脑或个人电脑上绘制,采用明亮的颜色以确保在各种背景下都清晰可见:绿色(RGB:0, 255, 94)用于操作任务的第一步,蓝色(RGB:0, 255, 247)用于第二步,粉色(RGB:255, 106, 138)用于第三步。对于更多步骤,可以灵活分配额外颜色。我们设计了两种绘图风格:自由风格(随意手绘)和几何风格(由几何组件构成,便于视觉语言模型更清晰地解释)。我们用圆圈表示可操作区域,并将箭头头部替换为标准三角形。
RoVI Book 数据集
为使视觉语言模型能够理解 RoVI,我们开发了一个用于 RoVI 条件策略的数据集,称为 RoVI Book。如图 7 所示,该数据集包含 15000 个图像文本问答对。它包括:(1)标注有 RoVI 的初始任务观察图像;(2)作为默认提示的简单查询;(3)由 GPT - 4o 生成的答案,涵盖 RoVI 分析、任务名称、细粒度规划步骤和 Python 函数。原始任务和图像选自 Open - X Embodiment 数据集。我们的数据集涵盖 64% 的单步任务和 36% 的多步任务,涉及五种基本操作技能:移动物体、旋转物体、拿起、打开抽屉 / 柜子和关闭抽屉 / 柜子 。答案最初由 GPT - 4o 生成,随后通过基于人类反馈的语义过滤进行优化。每个任务保留了 Open - X Embodiments 中的原始语义任务名称,同时我们对 RoVI 进行数据增强,引入 3 - 8 种视觉变体,包括不同的路径、绘图风格和线条粗细。
视觉指令实体化工作流程
工作流程概述
VIEW 由三个组件组成:(1)用于理解 RoVI 和进行规划的视觉语言模型;(2)用于生成时空约束的关键点模块[28];(3)用于执行机器人动作的低级策略。
如图 3 所示,该流程从视觉语言模型开始,其输入为手绘的 RoVI 、初始观察图像以及系统提供的默认提示。然后,视觉语言模型生成语言响应和执行函数。同时,关键点模块从 RoVI 中提取关键点,生成时空约束,包括起点、多个路径点和终点。最后,基于输入的和关键点坐标,低级策略执行相应的动作。
用于 RoVI 理解的视觉语言模型
鉴于视觉语言模型在视觉感知、内置世界知识和推理方面的能力,我们使用它们来解释 RoVI,并将其转换为自然语言响应。语言响应作为人类反馈的通用接口,能够验证视觉语言模型的理解程度,并将其与下游的低级策略相连接。与直接在 SE (3) 动作空间中输出参数的端到端策略相比,纳入了基于语言的动作表示,这使得在不同的任务和环境中具有更有效的泛化能力。
语言响应由视觉语言模型通过思维链(Chain - of - Thought,CoT)推理过程生成。它包括粗粒度的任务预测,提供高级任务描述,以及带有子目标序列的细粒度规划,将任务分解为更小的步骤。随后,每个子目标被转换为可执行的代码函数,这些函数定义了机器人手臂所需的动作或技能,如 move () 或 grasp ()。这些函数与关键点约束相结合,形成用于动作执行的低级策略。
关键点模块
为了从像素空间中的 RoVI 解码时空信息,我们根据颜色标识符将多步任务分解为单步任务。单步任务之间的转换被转换为关键点之间的运动,具体来说,是从步骤的终点到步骤j的起点。然后,经过训练的关键点模块提供关键点约束,其中包括末端执行器坐标序列以及在操作中关键点的语义功能,如起点、路径点和终点。
我们采用 YOLOv8 作为,并构建了一个包含 2000 张图像的数据集用于其训练。与开放词汇对象检测相比,我们的策略简化了在不同环境中对所有对象的检测,以识别 RoVI 符号的组件,使其对环境变化或干扰对象的敏感性降低。
基于关键点的低级策略
我们提出一种基于关键点的低级策略,使机器人能够遵循一系列定义为关键点的目标姿态来执行操作任务。这些关键点从 RGB 图像中的动作箭头中提取,并使用 RGB - D 相机的深度数据映射到三维坐标。
这些N个关键点随后被映射到 SE (3) 空间中的一系列期望末端执行器姿态,表示为。初始姿态通过基于的抓取模块获得。这一系列姿态构成了要执行的动作。我们将动作分为两类:平移(例如,移动到、推、拉)和旋转(例如,翻转、推倒、调节旋钮)。在每个时间步t,机器人执行以下操作:
状态观察:从 RGB - D 相机获取当前末端执行器姿态和目标关键点。
成本函数最小化::通过运动规划和插值向移动,最小化成本函数。
关键点转换:如果,则标记为已到达,并继续移动到。直到时,当前动作步骤结束。
每个时间步t的目标小化: 其中表示动作类型:平移时,旋转时。
实验分析
我们的实验旨在深入研究以下问题:
- RoVI 在真实世界和模拟环境中对未知环境和任务的泛化能力如何?
- 当前的视觉语言模型对 RoVI 的理解程度如何?
- RoVI 和 VIEW 的组件对整个流程的整体性能有何影响?
模型训练
我们选择 GPT-4o 和 LLaVA13B 作为 VIEW 中的视觉语言模型,以控制机器人操作任务。我们还使用 LoRA 在我们的 RoVI Book 数据集上对 LLaVA - 7B 和 13B 模型 进行微调,训练一轮,学习率为 2e-4。所有实验均在 NVIDIA A40 GPU 上进行。
实施过程
我们训练一个 YOLOv8 模型,从手绘指令中提取起点、路径点和终点,提供关键点约束。这些约束用于筛选由 AnyGrasp 生成的抓取姿态,以获得最接近的姿态。通过 RGB-D 映射获得的 3D 坐标和抓取姿态随后被输入到视觉语言模型生成的 Python 函数中,用于基于代码的低级控制。
操作任务
我们精心设计了 11 个任务:8 个在真实环境中,3 个在模拟环境中,如图 5 和图 6 所示。对于我们的方法而言,所有任务和环境都是之前未见过的,并且引入了新的物体。我们的设计包括 7 个单步任务,其中一些涉及存在干扰的杂乱环境,例如 “选择所需物体” 或 “在物体之间移动”,这需要精确的空间对齐和轨迹跟踪能力。此外,还有 4 个多阶段任务(真实环境中的任务 6 - 8,模拟环境中的任务 3),用于进一步测试对时空依赖关系的推理能力。
泛化到实际操作
-
真实世界设置与基线:在真实世界实验中,我们使用两个配备双指抓手的机械臂:UFACTORY X-Arm 6 和 UR5。两个校准后的 RealSense D435 相机分别用于自上而下和第三人称视角拍摄。两个机械臂均以 20Hz 的控制频率在末端执行器增量控制模式下运行。我们将我们的方法与两个基于语言条件策略的基线方法进行比较,即 CoPa 和 VoxPoser,这两种方法都利用 GPT 模型进行低级策略控制。CoPa还使用 Set-of-Mark (SoM) 进行对象标记,作为视觉提示。为确保公平比较,所有方法都使用 GPT-4o 作为视觉语言模型。
-
动作评估指标:我们报告两个评估操作执行情况的指标:动作成功率,衡量达到定义目标的任务百分比;时空对齐度,评估运动轨迹的一致性以及物体空间状态与语义目标的对齐程度。评估采用 6 分李克特量表。每个任务进行 10 次试验。
-
结果:表 1 显示,Voxposer 和 CoPa 在空间精度任务及任务 5 中表现差,存在轨迹跟踪问题,因基于语言的指令模糊,仅提供对象级信息,缺乏像素级精度。而 VIEW 在这些任务中表现优异,其关键点模块提供空间约束和路径点,专注 RoVI 符号部分,对环境干扰不敏感,在真实操作中泛化性和鲁棒性强。相较于其他使用视觉语言模型进行时间序列推理的方法,VIEW 在长时任务(任务 6 - 8)上性能出色,能依据颜色线索分解多步任务,降低时间推理复杂度。
仿真对比研究
-
仿真设置与基线:本节在模拟环境(以 SAPIEN 为模拟器、SIMPLER 为基础环境)中,对比语言指令、目标图像和 RoVI 三种指令方法的操作性能。模拟实验将我们的方法与在 Open X-Embodiment 数据集上训练的端到端、基于语言条件的视觉语言动作模型 RT-1-X 和 Octo 进行评估比较,Octo 还支持目标图像输入模式。实验设置采用与它们训练集相同的机械臂和背景,并在杂乱环境中设置新任务以测试泛化能力。
-
定量分析:这三个任务在杂乱环境中执行,语言和目标图像输入在这种环境下都面临重大挑战。特别是长时任务,在这种条件下几乎无法完成。然而,我们的方法表现异常出色。这些结果表明,端到端的视觉语言动作(VLA)模型在泛化到新任务方面存在困难,而我们的方法展示了强大的泛化能力,其在模拟中的性能与真实世界的结果紧密对齐。
-
定性研究:为了研究 RoVI 的潜在能力,我们进一步与自然语言和目标图像条件策略进行定性比较。如图 8 所示,RoVI 是唯一一种能够有效传达路径信息和最终状态的指令格式。相比之下,目标图像策略在最终状态方面表现良好,但在描述运动路径方面存在不足。对于像 RT-X 和 Octo 这样的方法,生成的路径和最终状态缺乏一致性,并且空间精度有限。在评估的示例中,RoVI 在时空对齐方面显示出明显的优势。
RoVI 在现代视觉语言模型中的理解情况
-
评估指标:我们采用上下文学习和零样本方法,评估视觉语言模型在新任务和环境中从 RoVI 提取语义含义的能力(上下文学习详情见补充材料)。通过使用人类反馈评估语言响应准确性,来衡量 “任务与规划” 成功率。评估分 “任务” 和 “规划” 两部分,“任务” 评估模型对任务定义的理解,“规划” 评估模型分解复杂 RoVI 任务的推理能力,每个任务进行 10 次试验。将训练的模型与 GPT4o、Gemini-1.5 Pro 等大规模模型,以及 InternLM-XComposer2-VL-7B 等较小规模模型进行比较。
-
结果:表 2 表明,先进的大型模型(Gemini、GPT-4o、Claude)即便未在专家数据集训练,也能通过上下文学习较好地理解 RoVI 条件下的操作任务。参数少于 130 亿的模型则难以有效理解。模拟和真实测试中,GPT-4o 整体表现最佳,且相比在 RoVI Book 数据集训练的 LLaVA-13B 等较小模型,先进大型模型在 RoVI 理解上泛化性更强。不过,任务步骤增多时,大型模型理解准确率会降低。而在 RoVI Book 数据集训练的 LLaVA-13B 在长序列任务 8 中表现出色,证明该数据集对学习 RoVI 条件下的多步任务有效。
- 错误分析:值得注意的是,在 RoVI Book 上训练的 LLaVA13B 在任务和规划预测中的成功率较低,但在动作执行方面表现出色。结合图 9,我们可以得出结论,执行函数映射动作和序列错误,使其不受感知错误的影响。在 RoVI Book 上训练后,与执行函数相关的错误显著减少。
消融研究
- 绘图方式:类似于语言提示通常需要 “提示工程”,自由形式的绘图可能会表现出显著的可变性。手绘指令引发了另一个问题:我们如何优化绘图风格以增强模型理解?在本节中,我们将绘图风格分为两个不同的类别进行比较,以研究它们对视觉语言模型推理性能的影响。相应的可视化和实验如图 10 和表 3 所示。我们的发现表明,更结构化的几何风格能带来更好的理解效果。
- 关键点模块:我们评估所提出的、由训练的 YOLOv8 模型构成的关键点模块,在四个不同 RoVI 任务中生成空间约束的能力。将其与三个流行的开放词汇检测模型对比,采用两种策略:(1)手动输入目标语义信息作为文本提示;(2)识别定位箭头组件(箭头头部和尾部)。评估的两个主要指标为:以像素为单位测量的欧几里得距离误差,用以评估精度;50 像素阈值下的平均精度均值(mAP),用以衡量准确性。表 4 中的结果表明,尽管关键点模块的参数规模较小,但与基于 Transformer 的开放词汇检测模型相比,它能够更有效地直接从像素空间中提取与任务相关的关键点。补充材料中提供了其他限制和详细信息。
总结
我们提出了用户友好且空间精确的 RoVI,用以指导机器人任务,替代自然语言;开发了视觉指令实体化工作流程(VIEW),在杂乱环境和长时任务中展现出强大的泛化性和鲁棒性;创建了用于微调视觉语言模型的数据集,以更好理解 RoVI 并为边缘设备部署做准备。未来的研究将集中扩大 RoVI Book 数据集规模,收集更多种类的自由形式手绘指令,使模型广泛理解人类用视觉符号传达动态运动的一般原则;高效地训练较小规模(如 70 亿参数规模)的模型,助力在机器人系统中部署边缘设备。