RT-2 的核心方法是采用视觉-语言-动作模型(VLA)与联合微调。具体步骤
如下:
步骤一:RT-2 通过 Vision Transformer (ViT) 提取图像特征,把动作
tokens 转化为语言 tokens,将相应动作转化为动作字符串(例如“1 128 91 241
5 101”)。在此过程中,机器人动作被离散化为多个参数(如位移和旋转),每
个参数映射为预定义的 token。这些 token 被嵌入到模型的语言字典中,与自然
语言 token 共用同一表示空间。
步骤二:RT-2 将任务指令和图像信息结合,通过 de-tokenize 转化为具体
的机器人动作序列。此过程使用大语言模型(LLM)解析任务,像自然语言处理那
样,动作模块使用 tokenizer 来处理这串 token 转成对应的机器人动作,将视觉
信息和任务指令解码为具体的机器人动作序列(如平移和旋转参数),进而分析这
串字符串对应的开始符、命令、停止符。
步骤三:在执行任务的过程中,模型同步实时进行联合微调(Co-FineTuning):机器人根据传感器和摄像头反馈的新图像信息,判断任务执行的状
态和完成情况。如果任务执行过程中出现误差或环境发生变化,模型会利用新的视
觉数据重新规划动作,直至任务完成。总而言之,语言模型负责持续理解任务场景
和需求,而动作模块根据视觉反馈实时调整操作,确保任务顺利完成。完成训练与
微调后,RT-2 被部署到机器人系统中,并具备了在复杂环境下执行多任务的能力,
实现G效的闭环控制。
|