机器人大模型RT-2操作步骤：tokens,机器人动作序列,联合微调

编辑：创创来源：Google 时间：2025/1/8

RT-2 的核心方法是采用视觉-语言-动作模型（VLA）与联合微调。具体步骤如下：

步骤一：RT-2 通过 Vision Transformer (ViT) 提取图像特征，把动作 tokens 转化为语言 tokens，将相应动作转化为动作字符串（例如“1 128 91 241 5 101”）。在此过程中，机器人动作被离散化为多个参数（如位移和旋转），每个参数映射为预定义的 token。这些 token 被嵌入到模型的语言字典中，与自然语言 token 共用同一表示空间。

步骤二：RT-2 将任务指令和图像信息结合，通过 de-tokenize 转化为具体的机器人动作序列。此过程使用大语言模型（LLM）解析任务，像自然语言处理那样，动作模块使用 tokenizer 来处理这串 token 转成对应的机器人动作，将视觉信息和任务指令解码为具体的机器人动作序列（如平移和旋转参数），进而分析这串字符串对应的开始符、命令、停止符。

步骤三：在执行任务的过程中，模型同步实时进行联合微调（Co-FineTuning）：机器人根据传感器和摄像头反馈的新图像信息，判断任务执行的状态和完成情况。如果任务执行过程中出现误差或环境发生变化，模型会利用新的视觉数据重新规划动作，直至任务完成。总而言之，语言模型负责持续理解任务场景和需求，而动作模块根据视觉反馈实时调整操作，确保任务顺利完成。完成训练与微调后，RT-2 被部署到机器人系统中，并具备了在复杂环境下执行多任务的能力，实现G效的闭环控制。

机器人分类