详细信息 位置:首页 > 行业资讯  
 

机器人大模型RT-2操作步骤:tokens,机器人动作序列,联合微调

编辑:创创      来源:Google      时间:2025/1/8
 

RT-2 的核心方法是采用视觉-语言-动作模型(VLA)与联合微调。具体步骤 如下:

步骤一:RT-2 通过 Vision Transformer (ViT) 提取图像特征,把动作 tokens 转化为语言 tokens,将相应动作转化为动作字符串(例如“1 128 91 241 5 101”)。在此过程中,机器人动作被离散化为多个参数(如位移和旋转),每 个参数映射为预定义的 token。这些 token 被嵌入到模型的语言字典中,与自然 语言 token 共用同一表示空间。

步骤二:RT-2 将任务指令和图像信息结合,通过 de-tokenize 转化为具体 的机器人动作序列。此过程使用大语言模型(LLM)解析任务,像自然语言处理那 样,动作模块使用 tokenizer 来处理这串 token 转成对应的机器人动作,将视觉 信息和任务指令解码为具体的机器人动作序列(如平移和旋转参数),进而分析这 串字符串对应的开始符、命令、停止符。

步骤三:在执行任务的过程中,模型同步实时进行联合微调(Co-FineTuning):机器人根据传感器和摄像头反馈的新图像信息,判断任务执行的状 态和完成情况。如果任务执行过程中出现误差或环境发生变化,模型会利用新的视 觉数据重新规划动作,直至任务完成。总而言之,语言模型负责持续理解任务场景 和需求,而动作模块根据视觉反馈实时调整操作,确保任务顺利完成。完成训练与 微调后,RT-2 被部署到机器人系统中,并具备了在复杂环境下执行多任务的能力, 实现G效的闭环控制。


 
 
机器人分类
 
 
最新资讯
 
 
 
  4006-935-088 / 4006-937-088 / 4008-128-728(售后)
 
商务合作:liutong@chuangze.cn
简历投递:hr@chuangze.cn
媒体合作:liutong@chuangze.cn
投融资:lyx@chuangze.cn
 
 
 

关注 公众号

关注 视频号

关注 抖音号
 
 版权所有 @ 北京创泽具身智能科技有限公司     鲁ICP备18039973号-5     地址: 北京市海淀区中关村南大街5号1区689幢8层805室