机器人视觉指令：提升三维空间和杂乱环境中机器人操作准确率-行业资讯-ARCE2026亚洲机器人大会暨展览会

机器人视觉指令：提升三维空间和杂乱环境中机器人操作准确率

自然语言作为人机交互主要媒介，存在空间精度不足、在安静场所使用受限等问题。为此，我们引入机器人视觉指令（RoVI）这一全新范式，以对象为中心的手绘符号引导机器人任务，利用多种元素编码时空信息。为使机器人更好地理解 RoVI 并基于其生成精确动作，我们提出视觉指令实体化工作流程（VIEW），借助视觉语言模型解释 RoVI，提取关键点解码约束并生成三维动作。我们还整理了一个包含15000 个实例的专用数据集微调小型视觉语言模型，便于边缘部署。该方法经 11 项新任务验证，泛化能力强，VIEW 在涉及多步动作、干扰和轨迹跟踪要求的真实世界未知任务场景中，成功率达到 87.5%，代码和数据集即将发布。

自然语言虽在人机交互中直观便捷，但借助大语言模型将其转换为机器人动作时存在挑战，如描述物体空间细节困难，表达空间需求易模糊冗长，且在某些公共场所语音交流不适宜。视觉模态能更直接精确传达时空信息，但目标图像输入与用户操作顺序相悖，轨迹绘制对用户有挑战、可读性低，实际应用不友好。

为解决这些局限，我们提出一种新的通信范式：机器人视觉指令（RoVI），如图 1 左侧所示。这是一种手绘草图指令方法，是以对象为中心的表示方式，利用二维符号语言来指挥三维实体操作。该范式为自然语言指令提供了一种直观、简洁且无声的替代方案。其基本元素包括箭头、圆圈和各种颜色，用于表示不同的动作时间顺序，数字则用于标记双臂系统中的不同实体。箭头指示轨迹和方向，圆圈表示可操作位置，用于在杂乱环境中识别目标物体。颜色清晰地传达时间顺序。通过整合这些元素，RoVI 将一系列三维坐标压缩成人类可理解的二维视觉语言，从而在用户友好性、可解释性和时空对齐方面实现了最佳平衡，如图 2 左侧所示。

为了更好地理解 RoVI 并用于指导机器人操作，我们引入视觉指令实体化工作流程（VIEW）。这是一个将二维 RoVI 指令转换为机器人操作的三维动作序列的流程，借助视觉语言模型转换为语言响应和 Python 代码函数，分解任务为单步子任务，提出关键点模块提取关键点作为约束，基于关键点策略指导机器人执行任务。

除了上述框架，我们开发了一个包含 15000 个训练实例的数据集，使模型能够通过参数高效微调（PEFT）学习 RoVI 能力。通过上述设计，我们的方法在真实世界和模拟环境中的各种未知任务中均表现出色，展现出强大的泛化性和鲁棒性。与基于语言的策略相比，我们的方法在杂乱环境、多步操作和轨迹跟踪任务中性能

本文的主要贡献如下：

提出一种新颖的人机交互范式：RoVI。它采用手绘符号表示作为机器人指令，在任务定义中传达更精确的时空信息。

设计了一个流程 VIEW（视觉指令实体化工作流程），以实现基于 RoVI 的操作任务。

开发了一个开源数据集，使模型能够学习 RoVI 能力。通过该数据集训练的轻量级模型表明，视觉语言模型能够通过最少的计算资源和简单的微调学习这一能力。

机器人视觉指令设计

我们介绍 RoVI 的范式设计，它由两种视觉基元组成：箭头和圆圈。所有简单或复杂的任务都被分解为三个以对象为中心的动作：从 A 移动到 B（由箭头表示）、旋转对象（一个表示可操作区域的圆圈，搭配一个表示旋转角度的箭头）以及拿起 / 选择（由圆圈表示）。

剖析箭头

我们使用二维箭头表示机器人动作的轨迹和时间顺序。一个箭头被分解为三个部分：尾部（起点）、箭身（路径点）和头部（终点）。起点标记物体上的抓取位置，终点表示动作的目标。中间路径点捕捉运动路径，形成一个有序集合：

其中是由关键点模块提取的二维坐标。

剖析圆圈

圆圈突出显示物体上的关键交互区域。中心点代表可操作中心，可用于各种任务：作为抓取点、旋转轴点，或作为诸如按下按钮等动作的施力点。

绘制设置

RoVI 可直接使用手写笔和绘图软件在平板电脑或个人电脑上绘制，采用明亮的颜色以确保在各种背景下都清晰可见：绿色（RGB：0, 255, 94）用于操作任务的第一步，蓝色（RGB：0, 255, 247）用于第二步，粉色（RGB：255, 106, 138）用于第三步。对于更多步骤，可以灵活分配额外颜色。我们设计了两种绘图风格：自由风格（随意手绘）和几何风格（由几何组件构成，便于视觉语言模型更清晰地解释）。我们用圆圈表示可操作区域，并将箭头头部替换为标准三角形。

RoVI Book 数据集

为使视觉语言模型能够理解 RoVI，我们开发了一个用于 RoVI 条件策略的数据集，称为 RoVI Book。如图 7 所示，该数据集包含 15000 个图像文本问答对。它包括：（1）标注有 RoVI 的初始任务观察图像；（2）作为默认提示的简单查询；（3）由 GPT - 4o 生成的答案，涵盖 RoVI 分析、任务名称、细粒度规划步骤和 Python 函数。原始任务和图像选自 Open - X Embodiment 数据集。我们的数据集涵盖 64% 的单步任务和 36% 的多步任务，涉及五种基本操作技能：移动物体、旋转物体、拿起、打开抽屉 / 柜子和关闭抽屉 / 柜子。答案最初由 GPT - 4o 生成，随后通过基于人类反馈的语义过滤进行优化。每个任务保留了 Open - X Embodiments 中的原始语义任务名称，同时我们对 RoVI 进行数据增强，引入 3 - 8 种视觉变体，包括不同的路径、绘图风格和线条粗细。

视觉指令实体化工作流程

工作流程概述

VIEW 由三个组件组成：（1）用于理解 RoVI 和进行规划的视觉语言模型；（2）用于生成时空约束的关键点模块[28]；（3）用于执行机器人动作的低级策略。

如图 3 所示，该流程从视觉语言模型开始，其输入为手绘的 RoVI 、初始观察图像以及系统提供的默认提示。然后，视觉语言模型生成语言响应和执行函数。同时，关键点模块从 RoVI 中提取关键点，生成时空约束，包括起点、多个路径点和终点。最后，基于输入的和关键点坐标，低级策略执行相应的动作。

用于 RoVI 理解的视觉语言模型

鉴于视觉语言模型在视觉感知、内置世界知识和推理方面的能力，我们使用它们来解释 RoVI，并将其转换为自然语言响应。语言响应作为人类反馈的通用接口，能够验证视觉语言模型的理解程度，并将其与下游的低级策略相连接。与直接在 SE (3) 动作空间中输出参数的端到端策略相比，纳入了基于语言的动作表示，这使得在不同的任务和环境中具有更有效的泛化能力。

语言响应由视觉语言模型通过思维链（Chain - of - Thought，CoT）推理过程生成。它包括粗粒度的任务预测，提供高级任务描述，以及带有子目标序列的细粒度规划，将任务分解为更小的步骤。随后，每个子目标被转换为可执行的代码函数，这些函数定义了机器人手臂所需的动作或技能，如 move () 或 grasp ()。这些函数与关键点约束相结合，形成用于动作执行的低级策略。

关键点模块

为了从像素空间中的 RoVI 解码时空信息，我们根据颜色标识符将多步任务分解为单步任务。单步任务之间的转换被转换为关键点之间的运动，具体来说，是从步骤的终点到步骤j的起点。然后，经过训练的关键点模块提供关键点约束，其中包括末端执行器坐标序列以及在操作中关键点的语义功能，如起点、路径点和终点。

我们采用 YOLOv8 作为，并构建了一个包含 2000 张图像的数据集用于其训练。与开放词汇对象检测相比，我们的策略简化了在不同环境中对所有对象的检测，以识别 RoVI 符号的组件，使其对环境变化或干扰对象的敏感性降低。

基于关键点的低级策略

我们提出一种基于关键点的低级策略，使机器人能够遵循一系列定义为关键点的目标姿态来执行操作任务。这些关键点从 RGB 图像中的动作箭头中提取，并使用 RGB - D 相机的深度数据映射到三维坐标。

这些N个关键点随后被映射到 SE (3) 空间中的一系列期望末端执行器姿态，表示为。初始姿态通过基于的抓取模块获得。这一系列姿态构成了要执行的动作。我们将动作分为两类：平移（例如，移动到、推、拉）和旋转（例如，翻转、推倒、调节旋钮）。在每个时间步t，机器人执行以下操作：

状态观察：从 RGB - D 相机获取当前末端执行器姿态和目标关键点。

成本函数最小化：：通过运动规划和插值向移动，最小化成本函数。

关键点转换：如果，则标记为已到达，并继续移动到。直到时，当前动作步骤结束。

每个时间步t的目标小化：其中表示动作类型：平移时，旋转时。

实验分析

我们的实验旨在深入研究以下问题：

RoVI 在真实世界和模拟环境中对未知环境和任务的泛化能力如何？
当前的视觉语言模型对 RoVI 的理解程度如何？
RoVI 和 VIEW 的组件对整个流程的整体性能有何影响？

模型训练

我们选择 GPT-4o 和 LLaVA13B 作为 VIEW 中的视觉语言模型，以控制机器人操作任务。我们还使用 LoRA 在我们的 RoVI Book 数据集上对 LLaVA - 7B 和 13B 模型进行微调，训练一轮，学习率为 2e-4。所有实验均在 NVIDIA A40 GPU 上进行。

实施过程

我们训练一个 YOLOv8 模型，从手绘指令中提取起点、路径点和终点，提供关键点约束。这些约束用于筛选由 AnyGrasp 生成的抓取姿态，以获得最接近的姿态。通过 RGB-D 映射获得的 3D 坐标和抓取姿态随后被输入到视觉语言模型生成的 Python 函数中，用于基于代码的低级控制。

操作任务

我们精心设计了 11 个任务：8 个在真实环境中，3 个在模拟环境中，如图 5 和图 6 所示。对于我们的方法而言，所有任务和环境都是之前未见过的，并且引入了新的物体。我们的设计包括 7 个单步任务，其中一些涉及存在干扰的杂乱环境，例如 “选择所需物体” 或 “在物体之间移动”，这需要精确的空间对齐和轨迹跟踪能力。此外，还有 4 个多阶段任务（真实环境中的任务 6 - 8，模拟环境中的任务 3），用于进一步测试对时空依赖关系的推理能力。

泛化到实际操作

真实世界设置与基线：在真实世界实验中，我们使用两个配备双指抓手的机械臂：UFACTORY X-Arm 6 和 UR5。两个校准后的 RealSense D435 相机分别用于自上而下和第三人称视角拍摄。两个机械臂均以 20Hz 的控制频率在末端执行器增量控制模式下运行。我们将我们的方法与两个基于语言条件策略的基线方法进行比较，即 CoPa 和 VoxPoser，这两种方法都利用 GPT 模型进行低级策略控制。CoPa还使用 Set-of-Mark (SoM) 进行对象标记，作为视觉提示。为确保公平比较，所有方法都使用 GPT-4o 作为视觉语言模型。
动作评估指标：我们报告两个评估操作执行情况的指标：动作成功率，衡量达到定义目标的任务百分比；时空对齐度，评估运动轨迹的一致性以及物体空间状态与语义目标的对齐程度。评估采用 6 分李克特量表。每个任务进行 10 次试验。
结果：表 1 显示，Voxposer 和 CoPa 在空间精度任务及任务 5 中表现差，存在轨迹跟踪问题，因基于语言的指令模糊，仅提供对象级信息，缺乏像素级精度。而 VIEW 在这些任务中表现优异，其关键点模块提供空间约束和路径点，专注 RoVI 符号部分，对环境干扰不敏感，在真实操作中泛化性和鲁棒性强。相较于其他使用视觉语言模型进行时间序列推理的方法，VIEW 在长时任务（任务 6 - 8）上性能出色，能依据颜色线索分解多步任务，降低时间推理复杂度。

仿真对比研究

仿真设置与基线：本节在模拟环境（以 SAPIEN 为模拟器、SIMPLER 为基础环境）中，对比语言指令、目标图像和 RoVI 三种指令方法的操作性能。模拟实验将我们的方法与在 Open X-Embodiment 数据集上训练的端到端、基于语言条件的视觉语言动作模型 RT-1-X 和 Octo 进行评估比较，Octo 还支持目标图像输入模式。实验设置采用与它们训练集相同的机械臂和背景，并在杂乱环境中设置新任务以测试泛化能力。
定量分析：这三个任务在杂乱环境中执行，语言和目标图像输入在这种环境下都面临重大挑战。特别是长时任务，在这种条件下几乎无法完成。然而，我们的方法表现异常出色。这些结果表明，端到端的视觉语言动作（VLA）模型在泛化到新任务方面存在困难，而我们的方法展示了强大的泛化能力，其在模拟中的性能与真实世界的结果紧密对齐。
定性研究：为了研究 RoVI 的潜在能力，我们进一步与自然语言和目标图像条件策略进行定性比较。如图 8 所示，RoVI 是唯一一种能够有效传达路径信息和最终状态的指令格式。相比之下，目标图像策略在最终状态方面表现良好，但在描述运动路径方面存在不足。对于像 RT-X 和 Octo 这样的方法，生成的路径和最终状态缺乏一致性，并且空间精度有限。在评估的示例中，RoVI 在时空对齐方面显示出明显的优势。

RoVI 在现代视觉语言模型中的理解情况

评估指标：我们采用上下文学习和零样本方法，评估视觉语言模型在新任务和环境中从 RoVI 提取语义含义的能力（上下文学习详情见补充材料）。通过使用人类反馈评估语言响应准确性，来衡量 “任务与规划” 成功率。评估分 “任务” 和 “规划” 两部分，“任务” 评估模型对任务定义的理解，“规划” 评估模型分解复杂 RoVI 任务的推理能力，每个任务进行 10 次试验。将训练的模型与 GPT4o、Gemini-1.5 Pro 等大规模模型，以及 InternLM-XComposer2-VL-7B 等较小规模模型进行比较。
结果：表 2 表明，先进的大型模型（Gemini、GPT-4o、Claude）即便未在专家数据集训练，也能通过上下文学习较好地理解 RoVI 条件下的操作任务。参数少于 130 亿的模型则难以有效理解。模拟和真实测试中，GPT-4o 整体表现最佳，且相比在 RoVI Book 数据集训练的 LLaVA-13B 等较小模型，先进大型模型在 RoVI 理解上泛化性更强。不过，任务步骤增多时，大型模型理解准确率会降低。而在 RoVI Book 数据集训练的 LLaVA-13B 在长序列任务 8 中表现出色，证明该数据集对学习 RoVI 条件下的多步任务有效。

错误分析：值得注意的是，在 RoVI Book 上训练的 LLaVA13B 在任务和规划预测中的成功率较低，但在动作执行方面表现出色。结合图 9，我们可以得出结论，执行函数映射动作和序列错误，使其不受感知错误的影响。在 RoVI Book 上训练后，与执行函数相关的错误显著减少。

消融研究

绘图方式：类似于语言提示通常需要 “提示工程”，自由形式的绘图可能会表现出显著的可变性。手绘指令引发了另一个问题：我们如何优化绘图风格以增强模型理解？在本节中，我们将绘图风格分为两个不同的类别进行比较，以研究它们对视觉语言模型推理性能的影响。相应的可视化和实验如图 10 和表 3 所示。我们的发现表明，更结构化的几何风格能带来更好的理解效果。

关键点模块：我们评估所提出的、由训练的 YOLOv8 模型构成的关键点模块，在四个不同 RoVI 任务中生成空间约束的能力。将其与三个流行的开放词汇检测模型对比，采用两种策略：（1）手动输入目标语义信息作为文本提示；（2）识别定位箭头组件（箭头头部和尾部）。评估的两个主要指标为：以像素为单位测量的欧几里得距离误差，用以评估精度；50 像素阈值下的平均精度均值（mAP），用以衡量准确性。表 4 中的结果表明，尽管关键点模块的参数规模较小，但与基于 Transformer 的开放词汇检测模型相比，它能够更有效地直接从像素空间中提取与任务相关的关键点。补充材料中提供了其他限制和详细信息。

总结

我们提出了用户友好且空间精确的 RoVI，用以指导机器人任务，替代自然语言；开发了视觉指令实体化工作流程（VIEW），在杂乱环境和长时任务中展现出强大的泛化性和鲁棒性；创建了用于微调视觉语言模型的数据集，以更好理解 RoVI 并为边缘设备部署做准备。未来的研究将集中扩大 RoVI Book 数据集规模，收集更多种类的自由形式手绘指令，使模型广泛理解人类用视觉符号传达动态运动的一般原则；高效地训练较小规模（如 70 亿参数规模）的模型，助力在机器人系统中部署边缘设备。

行业资讯

参观登记

参展登记

首页

展会概况

展商中心

观众服务

商旅服务

新闻中心

联系我们